Maar (1982, cité in [12,20,39]) propose une analyse du phénomène neurovision en fonction de trois étapes successives (fig. 3.1) : • La détection et la localisation du signal permettent la perception du stimulus visuel. On prendra pour exemple l’individu qui scrute le ciel de minuit et perçoit des points brillants. Le traitement neuro-sensoriel du stimulus le rend efficace. • Son identification, caractérisée par la reconnaissance de la forme, est possible par un second traitement correspondant à l’intégration des données perceptives. Il est actuellement difficile de dire s’il est neuro-sensoriel ou cognitif. Dans l’exemple choisi, la disposition et les rapports entre les six points brillants détectés permettent la reconnaissance de la forme du chariot. • La transposition ou transformation est un traitement cognitif. Il permet la reconnaissance de l’objet grâce à l’interprétation des données perceptives. Dans le cas proposé, on reconnaîtra et nommera la Grande Ourse. À un niveau plus élémentaire, reconnaître l’étoile demande le même travail. 3.1 L’appréhension et la reconnaissance visuelle L’attention se définit en termes de processus par lequel le cerveau sélectionne et maintient dans la conscience un événement extérieur ou une pensée [25,108]. Les modèles cognitifs offrent des apports théoriques qui permettent de l’évaluer concrètement chez les patients cérébro-lésés qui nous sont adressés. « Cependant, l’attention déficiente d’une personne souffrant d’un syndrome d’héminégligence visuelle gauche n’est pas comparable à celle d’une autre, hémiparétique anosognosique ou traumatisée crânienne en phase d’éveil de coma [114]. » Que doit-on retenir de l’attention dans le domaine de l’appréhension visuelle ? L’attention au sens général du terme, telle qu’elle est définie, est la première composante de la capacité attentionnelle permettant d’appréhender visuellement, puis de reconnaître un stimulus. Elle repose, selon Posner (cité in [72,108]), sur deux composants indépendants et pourtant en interaction : l’intensité de l’attention et la sélectivité. L’état général et mental d’éveil correspondant à une préparation à répondre constitue l’alerte dite tonique. Il est toutefois possible de l’augmenter pendant un court laps de temps. Elle sera alors qualifiée de phasique. Dès lors, on lui adjoint également une qualité de rapidité de réponse. La vie quotidienne nous demande souvent davantage et nous pouvons, grâce à un « effort mental » (Sturm, in [108]) lorsqu’il nous est impossible de faillir dans le processus attentionnel, mettre en œuvre une attention soutenue. Si la tâche est monotone (« fréquence d’apparition des stimuli cibles […] très basse ») (Sturm, in [108]), l’attention soutenue prend le nom de vigilance. La sélectivité « concerne la capacité du sujet à se focaliser sur certains aspects de la tâche tout en inhibant volontairement en même temps toute réponse à des stimuli non pertinents » (Sturm, in [108]). On envisage une sélectivité automatique (un feu rouge et un panneau « stop » entraînent l’arrêt immédiat du véhicule et, même hors contexte, le cri « au secours » est chargé d’un potentiel d’intervention) et une sélectivité individuelle. « L’effet cocktail » fait référence à l’attention que l’on porte soudain sur un mot prononcé derrière soi, alors que l’on est en train de parler avec d’autres personnes. Mais elle relève également d’une motivation particulière : « J’attends un barbu » et ne serai attentif qu’à ce type d’individu. On retiendra par ailleurs que « l’attention volontaire peut s’appliquer à un stimulus extérieur ou à une représentation mentale » dont le support est absent [72]. On verra que la sélectivité a des liens étroits avec l’orientation de l’attention. L’attention volontaire impliquée dans la sélectivité s’exerce particulièrement lors de l’attention partagée. Cette capacité de traitement est envisagée comme la faculté de traiter plusieurs registres simultanément. Plus la tâche est automatisée, plus il peut y avoir d’interférences : c’est le cas de la conduite automobile acquise qui s’accompagne volontiers de rires et de discussions. À l’opposé, plusieurs utilisations d’un même canal se combinent difficilement et peu de personnes peuvent lire et parler en même temps. Afin de pouvoir détecter et localiser un signal, on envisage un développement particulier de la sélectivité. L’orientation de l’attention est envisagée à partir du moment où l’on pose que « l’attention se dirige vers des informations spatiales, permettant de se former une représentation topologique de l’espace englobant le maximum d’informations en présence » (Sieroff, in [108]). Cette capacité, permettant de balayer tout l’espace du regard, intervient spécifiquement dans l’appréhension visuelle et la détection d’un signal. L’orientation spatiale de l’attention sélective est développée sur la base de deux dichotomies (Bartolomeo, in [108]). La capacité à orienter son attention dans l’espace entraîne le plus souvent un « comportement d’orientation » ([56] Bartolomeo in [108]) consistant en un mouvement des yeux, de la tête, voire du tronc dans la direction investie. Elle est alors dite « explicite » (overt). Mais il est possible qu’elle s’effectue sans mouvement, ce qui lui vaudra d’être qualifiée d’« implicite » (covert). On pensera en particulier à cette situation où l’on « surveille du coin de l’œil » (Camus, in [108]). L’orientation de l’attention vers une image mentale [72] est généralement implicite. Pourtant, à y bien regarder, on s’apercevra souvent que l’interlocuteur, brutalement en prise avec une attention interne, baisse les paupières, puis ouvre les yeux en les dirigeant vers la droite… L’orientation de l’attention, si elle est guidée par les stimuli, est automatique et envisagée comme « passive, réflexe et sans effort » (Bartolomeo, in [108]). On la nomme « exogène ou bottom-up ». Sa particularité est de permettre l’appréhension de nouveaux éléments en inhibant une réorientation vers un objet déjà perçu. Cette capacité, extrêmement importante, permet ce que les auteurs nomment « engagement/désengagement » qui sous-tend la possibilité de sélectionner une cible autant que celle de s’en détacher afin de pouvoir appréhender un autre indice. L’orientation « endogène », encore qualifiée de top-down, est volontaire puisque mise en œuvre en fonction d’un but ou d’une stratégie active. Elle permet de maintenir son attention sur un stimulus malgré les distracteurs alentour. Bartolomeo (in [108]) reprend les conclusions de Carbetta, Mezin, Shulman et Peters (1993) qui « montrent une implication préférentielle du lobe pariétal droit pour une orientation gauche comme pour une orientation droite de l’attention, alors que le lobe pariétal gauche est activé seulement pour une orientation dans le champ visuel droit ». La stimulation, sous la dépendance de l’attention, est captée par la rétine et déclenche l’orientation de la tête (éventuellement du tronc), dans l’objectif de fixer, de regarder le stimulus. Il s’agit donc ici d’une attention explicite (overt) envisagée comme exogène. Berthoz [80] montre que ce réflexe d’orientation dépasse la réaction motrice puisqu’il s’agit d’un « mécanisme qui établit une transition d’un état de l’organisme à un autre ». Il y a alors détection du signal. Simultanément, l’objet est localisé dans l’espace (position, éloignement, direction par rapport au corps…). Ces opérations correspondent à l’appréhension visuelle. Capté et localisé, l’objet ne peut pas être reconnu par une seule opération. D’abord décomposée, l’image est reconstruite pour devenir significative [7]. Trois traitements permettent l’identification de l’objet. Le premier concerne la perception de la forme, le second sa reconnaissance et le dernier la signification de l’objet. Le traitement permettant la perception de la forme est dit neuro-sensoriel et préattentif. Effectué par le système visuel périphérique, il a pour objectif de coder les « attributs primitifs » de l’objet. Ces codages indépendants et complémentaires ne sont pas hiérarchiques. Ils dépendent de la sélectivité des neurones. Extrêmement complexes, ils sont ici présentés très schématiquement. Les structures neuronales rétiniennes sont sensibles à des « antagonistes [46] » de lumières, de répartitions dans l’espace et de variations dans le temps. À titre d’exemple : • Certaines d’entre elles sont sensibles à la luminosité indépendamment de la couleur. C’est ainsi que la photocopie en noir et blanc d’une image composée de rouge et de vert donne un cliché gris uniforme. Il n’y a en l’occurrence aucune différence de luminosité. On la constate par contre dans celle d’un dégradé de gris. • D’autres ont une sensibilité temporelle. L’intensité lumineuse n’est pas stable dans le temps, et l’on parle du seuil de sensibilité temporelle. Celle-ci est largement décrite pour la télévision où l’œil ne perçoit aucune alternance malgré la succession permanente d’images dans le temps. Certaines méthodes d’endoctrinement ont, semble-t-il, utilisé la sensibilité temporelle qui, à une certaine fréquence, interdit de percevoir des images pertinentes incluses parmi celles que le système visuel enregistre consciemment. • D’autres encore sont sensibles à la fréquence spatiale et au contraste. L’intensité lumineuse n’est pas uniforme dans l’espace. La fréquence spatiale s’exprime en nombre de lignes régulières par unité de largeur et le contraste spatial correspond à la différence d’intensité lumineuse de ces lignes. C’est ainsi que lorsque nous observons des hachures, nous ne pouvons pas les distinguer si elles sont éloignées de nous et que l’apparence d’un texte imprimé dépend de la qualité de la résolution choisie. Ces sensibilités primitives [12], auxquelles il convient d’en ajouter d’autres comme le codage de la couleur et la disparité rétinienne, permettent la détection de l’orientation, du contraste, du sens de la direction, de la profondeur et du relief et celle de la couleur. Le stimulus est alors efficace puisqu’il possède des caractéristiques. On dit qu’il est « perçu ». L’homme organise les informations présentes dans le système visuel afin qu’elles deviennent significatives, puis met la forme en évidence. Les gestaltistes suggèrent que cette organisation s’effectue suivant des règles et des lois [12,14,39]. Le système visuel va donc « extraire [les] attributs élémentaires, [les] identifier [et les] regrouper pour former des objets [35] ». Il est sans doute utile de rappeler ici que les hémisphères cérébraux utilisent chacun leur mode d’analyse des informations. Le gauche, analytique, appréhende les parties qu’il regroupe ensuite en un tout (il analyse le tronc, les branches, les aiguilles, les pommes de pin… dont la synthèse devient sapin) et le droit, global, envisage directement le tout qu’il décompose secondairement en parties [72]. Le groupement est la première étape de la reconnaissance de la forme. On peut repérer la transition entre deux luminosités différentes. Ce repérage définit une limite qui permet d’isoler une surface par rapport à une autre ou par rapport à un fond. Elle circonscrit un espace qu’il faut remplir, nécessitant un « processus de remplissage [12] ». Il existe des contours particuliers que l’on nomme « contours virtuels » dans la mesure où il n’existe aucune discontinuité de luminosité. Le triangle imaginé par Kanizsa (cité in [7,25]) en est l’exemple le plus célèbre : cette forme est perçue comme une figure, alors qu’il n’existe aucun contour entièrement délimité (fig. 3.2). Illusoires, ils sont capables d’activer des structures neuroniques visuelles sélectives à l’orientation au même titre que les contours réels. Ils imposent la solution nommée « figure/fond ». La gestalt-théorie (cité in [39]) suggère que nous prenions la solution la plus simple, la plus pertinente et propose la notion de « la bonne forme ». La figure n’existe pourtant que sur un fond. Cette notion est due à Rubin (1921, cité in [12]) et correspond à la base de la reconnaissance de la forme : celle de la figure, caractérisée par des propriétés objectales susceptibles de s’apparier à un référent-objet, sort du fond qui est informe, diffus, indéfini. Ainsi est posée la différence entre la figure et son arrière-plan. La gestalt-théorie considère que cette capacité à distinguer la figure du fond fait partie du traitement de base perceptif ascendant. D’autres auteurs l’intègrent dans le traitement cognitif descendant où le « référent-objet » intervient. Parmi ces auteurs, Ramachandran (cité in [35]) pense que la distinction figure/fond ne peut s’élaborer qu’après identification et regroupement des formes tridimensionnelles. Bien des expériences ont été entreprises sur les illusions optiques et peuvent apporter quelques éclaircissements. Dans l’illusion optico-géométrique, il existe une discordance entre notre perception et notre représentation cognitive (fig. 3.3). Robinson (1972), Coren et Girus (1980) (cités in [12]) pensent qu’il ne s’agit pas d’une erreur dans le processus de jugement, mais de l’impossibilité de retrouver une information sensorielle correspondant à la réalité. Dans un autre type d’exemple (fig. 3.4), il y a visibilité relative. Le sujet doit orienter volontairement son attention vers un « nœud d’organisation » d’où surgira une représentation cognitive. Malgré diverses théories et bien qu’objectif de la fonction neurovision, il semble que l’on connaisse peu de chose sur les processus permettant la reconnaissance de l’objet. Tous les auteurs s’entendent cependant pour dire qu’il s’agit d’une fonction supérieure traitée par le cortex [12,18,39]. Ce traitement consiste à passer d’une image en deux dimensions (2D) à un objet en trois dimensions (3D). Afin de le reconnaître et de l’identifier, l’individu doit en avoir une représentation interne dénommée imagerie interne [35]. On l’envisage comme une image mentale mémorisée et abstraite comprenant le plus d’informations possible sur un objet, dans l’objectif de permettre sa discrimination entre d’autres de formes voisines. Sa construction suivant un modèle typique serait continuellement remise à jour [35]. Le passage en 3D semble ne pas pouvoir s’établir d’emblée et l’individu passe par une étape intermédiaire que Maar nomme « 2D et demie » (2 dimensions et demie) (cité in [16,39]). • la perspective comprenant les points de fuite ; • l’interposition (l’objet placé devant cache celui placé derrière) ; • la modification des couleurs en fonction de l’éloignement ; Le rôle de ce dernier indice semble particulièrement pertinent. Le cerveau, correspondant ici au système neuro-visuel, « considère a priori que la scène est éclairée par une source lumineuse unique », généralement venant du haut en référence au soleil [35]. Cette direction est en relation avec la position de la rétine et non en rapport avec l’environnement ; elle correspond à une hypothèse « simplificatrice [34] ». La source de lumière implique une face éclair��e, une sombre et, entre les deux, une zone semi-lumineuse. Cette donnée permet d’envisager la forme comme concave ou convexe. On parle de l’invariant « taille/distance » permettant la constante grandeur, quel que soit l’éloignement de l’objet (Baird, 1970, et Sedgwich, 1986, cités in [12]). De même, celui de formes a été souligné, quelle que soit l’inclinaison que prend l’objet (Sedgwich, 1986, cité par [12]) (fig. 3.16). • la fonction de l’objet : la pomme est faite pour être mangée ; le verre est utilisé pour boire ; • le niveau de base de l’objet : la pomme est un fruit, alors que le verre est un récipient utilisé pour la table ; • le niveau de catégorisation de l’objet, dit sous-ordonné et correspondant à la variété d’une même classe de base : de quelle pomme s’agit-il ? Golden ? boskoop ? granny ? … Et le verre, est-il à champagne ? à eau ? à liqueur ? … Ces trois niveaux de la représentation sémantique sont généralement synergiques, mais les traitements ne sont pas toujours aussi rigoureux. C’est ainsi que certains objets peuvent avoir leur prototype propre sans passer par la hiérarchie ci-dessus décrite. Murphy et Smith (1982, cités in [12]) citent un exemple du niveau de base de l’objet « oiseau ». La catégorie sous-ordonnée typique qui vient immédiatement à l’esprit est composée des images « moineau, rouge-gorge, corbeau… », et l’on constate que celle du « pingouin » est atypique. On peut donc tout à fait imaginer que le pingouin possède sa propre représentation. Certains auteurs soulignent que la forme dénommable est plus facilement identifiable que celle non dénommable [12]. On constate effectivement que le stimulus non significatif est structuralement apparié à une forme significative plus ou moins transformée et les chercheurs avancent la « supériorité de l’objet » (fig. 3.5). Elle est mise en exergue dans toutes les expériences où l’on demande la reconnaissance d’un objet dans et hors contexte ou l’identification d’une lettre isolée ou partie intégrante d’un mot. La « familiarité » semble être une propriété non des stimuli, mais des représentations. Il est différent de reconnaître un objet et une scène puisque cette dernière présente des relations déterminées entre les objets. Biederman (1981, cité in [12]) distingue deux aspects, la sémantique et la syntaxe, qui, directement liés à notre connaissance du monde, facilitent la reconnaissance. Ces deux critères sont basés sur la cohérence. La sémantique fait référence à la scène quant à sa signification. Elle comprend trois règles : a. La « probabilité » évoque la vraisemblance. L’arbre penché suggère la présence de vent, la saison nous permet d’envisager que le manteau blanc est de la neige, la vision d’un chantier de bâtiment nous oriente sur des machines à outils plutôt qu’agricoles… b. La « localisation » renvoie à la place logique des objets dans la scène. Autant il est pensable de trouver un panneau de signalisation sur le trottoir à l’approche d’un croisement, autant il ne vient pas à l’esprit de l’imaginer au milieu d’une salle à manger… c. La « taille relative des objets » permet d’accéder spontanément à l’effet de distance puisque l’objet est d’autant plus « petit » qu’il est « éloigné de moi ». a. La première concerne l’existence d’un support physique : sauf situation particulière d’objets volants (l’air est invisible) ou d’apesanteur, les objets reposent directement sur le sol ou par un intermédiaire. b. La seconde correspond à l’interposition : les objets sont en majorité opaques et masquent ceux qui sont derrière eux. Les auteurs sont encore très incertains sur la nature des processus permettant la reconnaissance des visages. Ils envisagent « la dominance du lobe occipital droit […], le rôle critique de la lésion du gyrus fusiforme droit dans la prosopagnosie [53] » et « l’intervention de deux facteurs différents (mnésique et perceptif) dans le déficit de la reconnaissance des visages […] qui s’inscrit dans un ensemble symptomatique fort complexe [39] ». On peut retenir deux orientations : Le codage primitif débouche sur un codage en 3D qui permet la représentation structurale « visage/non-visage » correspondant à la décision faciale. À la suite de cette première catégorisation, des analyses perceptives spécifiques se portent sur l’âge, le sexe, la race, l’expression… et sur une évaluation de la familiarité reposant sur un système de traitement particulier (Bruce et Young, 1986, cités in [16]). b. La seconde orientation envisage plutôt la mise en place d’un registre particulier très tôt dans le développement de l’enfant, voire « spécifique de l’espèce Homo sapiens [40] ». La forme « visage humain » serait alors un « déclencheur spécifique ». Bodamer (1947), Bruyer et al. (1983) et Signoret (1987) (cités in [56]) envisagent, parmi les hypothèses, que la reconnaissance des visages puisse reposer sur une mémoire spécifique atteinte lors de la prosopagnosie. Hécaen [40] écrit que l’on devrait « peut-être séparer plusieurs types différents de prosopagnosie [puisqu’il] semble impossible pour le moment de décider si la prosopagnosie correspond à une altération de l’aptitude à reconnaître les figures à composantes multiples et à organisation particulière ou à une destruction spécifique des détecteurs particuliers aux visages ». • L’appréhension visuelle consiste à appréhender et à localiser un signal. Elle nécessite la mise en action d’un système attentionnel permettant l’orientation de l’attention vers le stimulus interne ou externe, sa détection et le maintien de cette attention. Cette appréhension déclenche inévitablement des mouvements de saccades oculaires pour tous les stimuli externes, qu’ils aient été ou non précédés d’une « orientation interne sans mouvement oculaire [71] ». • La reconnaissance visuelle consiste à reconnaître un objet ou une image. Cette identification est tridimensionnelle. Elle donne un sens et un nom à l’objet perçu. D’abord périphérique, le message codé par la rétine est bidimensionnel et s’intègre dans un traitement considéré comme neuro-sensoriel. Il devient tridimensionnel grâce à un traitement cognitif où les corps striés et les zones du langage ont un rôle particulier. La gnosie visuelle suppose une synthèse cérébrale entre les différentes informations extérieures et les images mentales. 3.2 Troubles, évaluation et rééducation de l’appréhension visuelle Restant fidèle aux étapes permettant l’appréhension visuelle, je classerai les troubles relevant de cette fonction de base selon deux critères : perturbation dans la fonction de détection et de capture du signal et perturbation dans la fonction de localisation. Dans la littérature, ces deux types d’atteintes sont habituellement appelés « troubles de l’appréhension visuelle » et relèvent d’une lésion de l’hémisphère droit [39]. Ils sont distincts des troubles de l’identification, communément nommés « agnosie » (cf. « Troubles, évaluation et rééducation de l’agnosie visuelle »). L’agnosie visuo-spatiale porte également le nom d’agnosie spatiale. Elle est caractérisée par la désorientation majeure, décrite par Wilbrand en 1892 comme une perte du sens des lieux ou par Holmes comme un trouble de la perception de l’espace (cités in [39]). Elle est due à une incapacité à appréhender l’espace par la vue. On constate chez le patient une difficulté d’appréhension visuelle globale, une perception des détails et une absence d’exploration systématique de l’espace. On imagine volontiers que l’espace qui l’entoure est constitué d’une multitude de pièces de puzzle qu’il reconnaît, mais ne peut assembler pour former un tout cohérent. L’examen plus attentif du sujet révèle d’autres caractéristiques associées, tels un trouble de la mémoire visuelle ou des apprentissages difficiles. La désorientation s’exprime par une multitude de manifestations que les auteurs, au fil du temps, ont tenté de regrouper en tableaux cohérents. Parmi les nombreuses propositions, Ajuriaguerra et Hécaen [39] envisagent trois traitements défectueux pour expliquer cette caractéristique de l’agnosie visuo-spatiale. Ce trouble est décrit par Holmes et Horrax (cités in [39]) sous le nom de « désorientation visuelle ». Elle s’exprime dans les trois dimensions et semble « toujours accompagnée par des modifications de l’apparence, de la taille, des formes et des teintes des objets ». Elle correspond à la perte de la vision stéréoscopique, de la localisation des objets et à l’impossibilité de comparer leur grandeur et leur taille. On lui adjoint le plus souvent des « perturbations oculomotrices [39] ».
Fonctionnement, troubles, évaluation et rééducation de l’appréhension et de la reconnaissance visuelle
(1) agnosie des formes, (2) agnosie intégrative, (3) agnosie de transformation, (4) altération du stock mnésique des formes, (5) agnosie d’accès sémantique, (6) agnosie sémantique. Humphreys et Riddoch, d’après Bergego C, et al. La reconnaissance des formes et des objets : données récentes en psychologie expérimentale et cognitive, intérêt dans la compréhension des agnosies visuelles. In : Annales de réadaptation et de médecine physique. Paris : Elsevier ; 1989. p. 570.
Appréhension visuelle
Attention
Attention au sens général du terme
Intensité
Sélectivité
Orientation de l’attention
Explicite/implicite
Exogène/endogène
Appréhension visuelle
Phénomène d’identification
Perception de la forme
Reconnaissance de la forme
Regroupement
Mise en évidence de la forme
Contour et surface
Les contours illusoires activent des structures neuroniques au même titre que les contours réels et imposent la solution « figure/fond ». (d’après Bergego et al. [7], p. 567)
Figure et fond
L’orientation différente des segments y induit l’illusion x1 > x2. (d’après Bergego et al. [7], p. 566)
Cette illusion est fonction de l’interprétation que l’observateur porte sur les formes qu’il voit – « le bec du canard » devient « oreille de lapin » suivant l’orientation que l’on donne à l’animal. D’après Hoffman, sous la direction de Bonnet C. In : La perception visuelle. Paris : Belin ; 1984.
Perception et reconnaissance de l’objet
Représentation structurale à trois dimensions
« 3D »
Invariants
Représentation sémantique des objets
Représentation phonologique des objets
Perception et reconnaissance d’une scène complexe
La sémantique
La syntaxe
Reconnaissance des visages
Conclusion
Troubles de l’appréhension visuelle
Troubles de la détection et de la capture du signal
Agnosie visuo-spatiale
Trouble de la perception spatiale
Stay updated, free articles. Join our Telegram channel
Full access? Get Clinical Tree
