3. Des théories de l’apprentissage aux théories cognitives

Les théories proposées pour expliquer la genèse des troubles psychologiques vont des modèles unidirectionnels qui mettent en avant le conditionnement de l’organisme par l’environnement, aux modèles bidirectionnels qui mettent l’accent sur l’autorégulation, les phénomènes cognitifs et l’interaction entre l’individu et l’environnement.

Théories de l’apprentissage

Conditionnement classique, pavlovien ou répondant

Le conditionnement répondant a été décrit par Pavlov selon le schéma : Stimulusstimulus → réponse. Le conditionnement répondant est la réponse par un organisme à une situation stimulus spécifique qui représente un antécédent. Le stimulus (en latin « aiguillon ») précède la réponse. Pavlov a décrit la possibilité de créer une réponse conditionnelle en associant un stimulus neutre (diapason) annonciateur de la présentation d’un stimulus inconditionnel (nourriture) qui déclenche toujours la réponse de salivation en l’état de déprivation chez un chien. En outre, Pavlov (1963) a mis en évidence d’autres lois désormais classiques, comme l’extinction, la généralisation, la sur-généralisation et la discrimination. Le problème des relations temporelles entre le stimulus conditionnel (SC) et inconditionnel (SI) est moins bien connu, ce qui entraîne souvent des erreurs, en particulier dans les cures de dégoût alcoolique. Cinq types principaux de relations ont été décrits :

• le conditionnement simultané où le SC précède d’une demi-seconde le SI. Il a été en effet montré que cet intervalle de temps entraîne un conditionnement plus rapide que tout autre intervalle ; c’est donc le modèle à utiliser préférentiellement ;

• le conditionnement différé où l’intervalle de temps entre le SC et le SI est plus long, en général dix secondes. Dans les deux cas les stimuli inconditionnel et conditionnel se terminent en même temps ;

• le conditionnement de trace où le stimulus conditionnel est présenté avant le SI, dont il est séparé par un intervalle de temps ;

• le conditionnement temporel : le stimulus inconditionnel est présenté à des intervalles de temps réguliers qui peuvent alors avoir valeur de stimuli conditionnels ;

• le conditionnement rétrograde où le stimulus inconditionnel est présenté avant le stimulus conditionnel et pendant une assez longue période.

Les échecs de certaines cures de dégoût alcoolique peuvent s’expliquer par le mauvais maniement des relations entre SC et SI. Dans les cures à l’apomorphine, l’alcool (SC) est présenté au moment où les effets de l’apomorphine (SI) ont atteint leur niveau le plus élevé. On renverse l’ordre SC-SI, ce qui ne peut entraîner qu’un conditionnement rétrograde difficile à réaliser.

L’acquisition de névroses a été étudiée chez l’animal par Pavlov (1963). Chez l’homme, les premiers travaux remontent à Watson et Rayner et à la célèbre expérience du petit Albert, qui demeure contestable sur le plan éthique. Un enfant de neuf mois est conditionné à avoir une réaction de peur, à la représentation d’un rat blanc inoffensif, en associant son apparition à un bruit violent : un coup de marteau sur une barre d’acier, qui est ensuite éliminé. La peur se généralise à une boule de coton blanc, un lapin ou un masque blanc. Cependant, Watson ne put avoir la suite de ce cas, car l’enfant qui était hospitalisé rentra dans sa famille. Mary Cover Jones fait une expérience analogue avec un autre enfant, Peter, mais elle enseigne à l’enfant à se déconditionner de sa peur, en lui apprenant une réponse incompatible : sucer une glace. Dans l’expérience de Watson, il avait été également remarqué que le fait de sucer son pouce diminuait les réactions anxieuses de l’enfant : c’est la base de ce qui sera décrit par Wolpe comme inhibition réciproque. En outre, Mary Cover Jones montre la possibilité d’extinction de l’angoisse chez l’enfant s’il imite des enfants qu’il a observés en train de jouer sans peur avec l’animal.

Cette expérience sera reproduite trente ans plus tard par Bandura (1977) et décrite sous le nom de « modeling » (apprentissage social par imitation).

La théorie classique considère que n’importe quel stimulus simple ou complexe qui est associé à une situation entraînant de la peur peut, par la suite, déclencher à lui seul des réactions de peur ouvertes : fuite, évitement, échappement ou réponses verbales, et couvertes : pensées, images ou réponses physiologiques.

Le concept d’inhibition réciproque a été ensuite développé par Wolpe. Masserman en 1954, vait eu l’idée, dérivée de la psychanalyse, que les névroses expérimentales résultaient d’une situation conflictuelle, et ses travaux semblaient assez solidement étayés. Wolpe (1975) fit une série d’expériences chez les chats qui représenta, à l’époque, une avancée théorique et clinique. Un groupe d’animaux dans leur cage habituelle entendait un bruit suivi d’un choc électrique douloureux. Dans un groupe, le bruit était d’abord associé à de la nourriture et ensuite à un choc, de façon à opposer deux tendances, la peur et la faim. Dans les deux groupes, il apparut une inhibition du comportement de prise alimentaire, ce qui amena Wolpe à considérer que le conflit n’était pas nécessaire à la constitution des réactions névrotiques, comme le croyait Masserman.

Wolpe considéra également que si l’anxiété était inhibitrice de la réponse de prise de nourriture, le fait de manger était peut-être inhibiteur de l’anxiété : phénomène d’inhibition réciproque comparable à celui décrit par Sherrington. Les animaux étaient très anxieux dans leurs cages habituelles, mais beaucoup moins dans d’autres. Aussi leur donna-t-il de la nourriture dans des cages différentes puis, ensuite, il les remit dans des cages de plus en plus similaires à leurs cages habituelles. Le procédé d’affrontement progressif au stimulus anxiogène avec inhibition par la nourriture fut continué jusqu’à ce qu’il n’y ait plus d’anxiété dans la cage habituelle. Puis le bruit fut à nouveau associé à la présentation de nourriture jusqu’à ce qu’il ne soit plus facteur d’anxiété. Par la suite, il chercha chez l’homme des réponses qui inhibaient l’anxiété ; la relaxation lui apparut comme la meilleure méthode pour contre-conditionner l’anxiété en l’associant au stimulus conditionnel générateur d’angoisse (images mentales évoquant des scènes phobiques progressives), pour désensibiliser le patient à la situation anxiogène. Puis Wolpe a voulu étendre son modèle aux autres réponses humaines : la colère inhibant l’anxiété, de même que l’expression des sentiments positifs ou négatifs. Mais au fil des années, il a fait des emprunts pour compléter sa théorie à des notions issues du conditionnement opérant.

Conditionnement opérant, skinnérien ou instrumental

On appelle également le conditionnement opérant « conditionnement instrumental » ou conditionnement skinnérien. Il a été mis en évidence par l’utilisation expérimentale d’une boîte (la boîte de Skinner où un animal était enfermé). La boîte contenait un levier ; si l’animal découvrait par hasard que la pression de la barre lui permettait d’avoir de la nourriture, il avait tendance à répéter cette action qui était enregistrée dans ses répétitions sur une courbe par un stylet relié au levier.

Selon Skinner (1971), la variable dépendante à étudier dans tout comportement est la réponse et son débit. L’organisme opère sur l’environnement et les conséquences de son action le conduisent à modifier son comportement. Il répétera ou éliminera certaines réponses. Les actions sont renforcées par leurs conséquences. L’unité d’analyse du comportement est la contingence de renforcement. Une formulation adéquate de l’interaction entre un organisme et son milieu doit spécifier quatre niveaux d’analyse fonctionnelle en considérant un modèle simple de psychologie animale :

• un état de motivation interne : faim ;

• les circonstances dans lesquelles la réponse survient, autrement dit le stimulus discriminatif qui indique au sujet qu’il doit répondre : un signal lumineux par exemple ;

• la réponse elle-même (appuyer sur un levier) ;

• les conséquences renforçantes (la nourriture).

L’interrelation entre ces quatre éléments est une contingence du renforcement.

Le conditionnement classique est un apprentissage par la substitution de stimulus, de telle sorte que les fonctions du stimulus inconditionnel soient acquises par association répétée par le stimulus conditionnel. Il correspond au système nerveux végétatif et aux réponses viscérales.

Le conditionnement opérant est l’apprentissage d’un comportement en fonction des conséquences qui résultent de l’action de l’organisme sur l’environnement. La figure 3.1 compare conditionnements classique et opérant.

Figure 3.1

Schéma comparatif du conditionnement classique et du conditionnement opérant. SI : stimulus inconditionnel ; SC : stimulus conditionnel ; RI : réponse inconditionnelle ; RC : réponse conditionnelle ; SD : stimulus discriminatif.

Les conséquences d’un comportement peuvent être plaisantes ou déplaisantes. Le conditionnement opérant correspond au système musculaire squelettique. Le conditionnement opérant est donc un apprentissage par les conséquences de l’action. Une action qui a des conséquences positives tendra à se répéter (renforcement positif). Inversement devant les conséquences négatives d’une action, l’organisme aura tendance à émettre des comportements d’évitement ou d’échappement à la situation susceptibles de provoquer des désagréments. C’est le Renforçateurrenforcement négatif : conditionnement d’échappement ou d’évitement des situations aversives.

L’absence de conséquences négatives ou positives à une action entraînera progressivement la disparition de cette action du fait de l’absence de tout renforcement : c’est l’extinction. La figure 3.2 présente une contingence de renforcement.

Figure 3.2

Conditionnement opérant (Skinner, 1937). Contingence de renforcement : modèle SORC. SD = stimulus discriminatif (situation, environnement) ; O = organisme ; R = réponse ; C = conséquence ;+= positif ; 0 = nul ; – = négatif (punition).

En résumé, les renforcements négatifs tout autant que les renforcements positifs sont des conséquences de comportements qui les précèdent. Dans le cas d’un renforcement positif, le comportement aboutit à la présence du renforçateur, tandis que dans le cas d’un renforcement négatif, le comportement évite le renforçateur ou s’en éloigne.

Le tableau 3.1 résume les relations entre comportement et renforcement.

**Tableau 3.1** Renforcement positif, renforcement négatif et aversion
Renforcement positif	La présentation des renforçateurs permet d’accroître l’intensité et la fréquence du comportement qui le précède
Renforcement négatif	Le retrait du renforçateur permet d’accroître l’intensité et la fréquence du comportement qui le précède
Aversion (punition)	La présentation du stimulus aversif fait décroître l’intensité et la fréquence du comportement qui le précède

Finalement l’approche skinnérienne du comportement est essentiellement un néo-darwinisme comportemental qui postule que l’environnement sélectionne les plans d’action qui ont du succès. L’organisme est présenté comme une machine passive sur laquelle l’environnement imprime sa marque.

« Le monde à l’intérieur de la peau »

Le système philosophique et scientifique skinnérien, qui est une réaction contre le mentalisme et l’introspection en psychologie, négligeait les phénomènes intra-individuels. Skinner, pour combler cette lacune, a étudié ce qu’il appelle : « le monde à l’intérieur de la peau ». En particulier, il a élaboré la notion de comportement gouverné par des règles, car une partie des conduites que nous émettons n’est pas le résultat d’une exposition directe aux contingences. Il en résulte une économie d’apprentissage, et la culture représente simplement la transmission des connaissances sur la liaison qui unit le comportement à ses conséquences. Mais de façon ultime la règle est reliée à des conséquences externes.

Le conditionnement « couvert » ou sensibilisation interne représente une autre évolution vers le cognitivisme. Par comportement couvert, l’on entend le comportement physiologique ainsi que les pensées, affects et images mentales. Le monde interne des images mentales est une copie, une reproduction du monde externe. Il obéit aux mêmes lois d’apprentissage. Certaines images peuvent être maintenues ou éliminées par d’autres, ayant des propriétés renforçatrices, ou représentent un modèle de comportement. On aboutit ainsi à une modification du behaviorisme radical par le modèle médiationnel du conditionnement couvert, la médiation étant assurée par l’imagerie mentale.

L’existence d’opérants internes a été avancée pour appliquer la théorie du conditionnement opérant à la pensée. La pensée dans cette perspective est définie comme une parole à basse amplitude. Les études cliniques de conditionnement opérant de la pensée n’ont pas donné de résultats probants.

Apprentissage viscéral par conditionnement opérant

À la suite de Skinner était établie une distinction claire entre le conditionnement opérant – conditionnement du système nerveux régissant le muscle strié – et le conditionnement classique – conditionnement du système nerveux végétatif et du muscle lisse.

La possibilité de conditionner les réponses viscérales dépendantes du système nerveux autonome a été mise en évidence par Miller (1969). Chez l’animal, par une série d’expériences où les effets de la contraction musculaire étaient bloqués par du curare, ce groupe de chercheurs a mis en évidence la possibilité de conditionner les réponses viscérales par des systèmes de récompenses (stimulation des centres du plaisir) et de retraits de récompense.

Ainsi, le contrôle opérant d’une série de fonctions a pu être établi pour la vasodilatation, le rythme cardiaque, la fonction rénale, les ondes cérébrales, la tension artérielle, les contractions de l’estomac et l’accumulation de sang dans la paroi stomacale. Au préalable, ils avaient montré la possibilité de conditionner la salivation des chiens par des systèmes de récompenses directs et externes, ainsi que la conductance cutanée, reflet indirect de l’activation émotionnelle.

Les conséquences de ce travail étaient considérables puisque la distinction entre conditionnement classique et conditionnement opérant n’avait plus de sens. L’apprentissage pavlovien n’était plus qu’un cas particulier du conditionnement opérant ; le réflexe conditionnel classique n’était que le fragment d’une réponse opérante : SORC (stimulus-organisme-réponse-renforcement).

Par la suite, des appareils permettant de capter les signaux physiologiques ont été construits pour les transformer en signaux sonores et visuels variables en fonction du niveau de performance : le sujet reçoit une information en retour, un feed-back de son état viscéral.

Sur le plan clinique, la distinction classique entre l’hystérie (conversion dans le système neuromusculaire strié) et les maladies psychosomatiques (système nerveux végétatif) disparaissait car les réponses psychosomatiques peuvent être renforcées de l’extérieur, en particulier par l’environnement familial.

Sur le plan pratique, le Biofeedback<i>biofeedback, ou rétroaction biologique, a été utilisé pour le conditionnement cardiaque, respiratoire, la vasodilatation périphérique et l’augmentation de la résistance cutanée pour obtenir un état de relaxation. Paradoxalement, les meilleurs résultats ont été obtenus par rétroaction biologique portant sur la contraction musculaire : donc dans le domaine classique du conditionnement opérant et non de l’apprentissage viscéral.

En outre, il a été impossible de reproduire les expériences de Miller, ce qui a amené leur réexamen critique et le maintien finalement de deux types de conditionnement : répondant pour le système nerveux végétatif et opérant pour le système nerveux de relation (muscles striés) (Miller, 1974).

Apprentissage non associatif

Nous avons vu deux formes d’apprentissage associatif : le conditionnement répondant et le conditionnement opérant. Lors de l’apprentissage associatif, l’organisme apprend de l’information sur deux stimuli. Lors du conditionnement classique s’établissent les relations entre le stimulus conditionnel et le stimulus inconditionnel. Lors du conditionnement opérant s’établissent les relations entre le stimulus discriminatif et le stimulus renforçateur. Dans un cas comme dans l’autre, il faut répéter le conditionnement pour qu’il se stabilise et en faire le rappel de temps à autre pour qu’il ne s’éteigne pas.

Dans l’apprentissage non associatif, l’organisme acquiert définitivement de l’information sur un seul stimulus, en une seule rencontre qui met au jour un ensemble de réponses comportementales, cognitives et émotionnelles persistantes. Il existe deux formes principales d’apprentissage non associatif : l’empreinte et la sensibilisation.

L’empreinte

L’empreinte a été mise en évidence par les éthologistes, en particulier Konrad Lorenz qui reçut le prix Nobel en 1973 (Lorenz, 1967) et qui, à partir de l’étude des animaux en milieu naturel et en réponse au modèle skinnérien, avait souligné que l’apprentissage pouvait avoir lieu selon des modalités propres à l’espèce et par l’exposition à un stimulus lors d’une période critique ou période d’empreinte. Une classe de stimuli libère alors un comportement propre à l’espèce : en particulier le comportement sexuel et les liens qui en découlent. Pour qu’il y ait empreinte, il faut une exposition à un objet qui oriente les préférences sexuelles, de manière irréversible, et permet de reconnaître son espèce. Le phénomène d’empreinte est génétiquement programmé. Ses domaines principaux sont le lien familial, le lien sexuel et le choix d’un habitat.

Pour que l’apprentissage soit possible, il doit nécessairement exister des mécanismes génétiquement déterminés permettant à un animal d’apprendre. Un animal ne peut pas apprendre n’importe quoi, mais seulement ce pour quoi son système nerveux est conçu. Et les contraintes sur l’apprentissage sont de trois types : la période d’empreinte, les patterns fixes d’action génétiquement programmés et libérés lors de la période d’empreinte, et enfin les comportements propres à l’espèce.

La sensibilisation

La sensibilisation est l’inverse de l’habituation. La présentation brève et intense d’un stimulus nocif accroît l’intensité des réponses émotionnelles. C’est ce que l’on observe dans le stress post-traumatique. La présentation brève des stimuli évocateurs d’obsessions et de compulsions ou de phobies ne fait qu’accroître l’intensité des réponses motrices, cognitives et végétatives futures.

Erich Kandel (2006) reçut le prix Nobel en 2000 pour ses travaux sur l’apprentissage non associatif, résultant d’une seule rencontre avec un événement traumatique. Kandel avait vécu une expérience traumatique précoce qui lui avait laissé un souvenir indélébile : la fuite de Vienne en 1938, lors de la nuit de Cristal. Il s’est servi d’un modèle animal pour tenter d’expliquer ce souvenir humain. Il s’agissait de l’aplysie, une limace de mer, qui présente un petit système de gros neurones permettant d’étudier les phénomènes chimiques de la neurotransmission. Il a mis en évidence que les phénomènes de mémorisation pouvaient suivre deux processus neurochimiques : la potentialisation à long terme (LTP) qui facilite une réponse durable à un stimulus faible ou unique ; et la dépression à long terme (LTD) : phénomènes de dépression de l’activité synaptique. Kandel a étudié en détail la cascade d’événements chimiques qui sous-tendent ces deux processus.

L’habituation est spécifique d’un stimulus ou d’une situation mais, à l’inverse de la sensibilisation, elle consiste à apprendre ce qu’il ne faut pas faire : sur-réagir à un stimulus neutre (tic-tac de l’horloge, bruits de la rue, un train qui passe). Elle consiste donc en la diminution d’une réponse inconditionnelle qui est progressive et relativement prolongée. Elle correspond à un épuisement des ressources disponibles à la population de neurones déclenchant la réponse.

Les méthodes de TCC par exposition aux situations anxiogènes se fondent pour une grande part sur l’habituation des réponses inconditionnelles qui résultent de processus de sensibilisation. Ce sont donc des méthodes d’habituation.

Apprentissage social

Cette théorie élaborée par Albert Bandura à l’université de Stanford est exposée principalement dans trois livres (Bandura, 1969, Bandura, 1977 and Bandura, 2007). Elle représente certainement l’aspect le plus achevé à l’heure actuelle des théories de l’apprentissage. Elle permet également d’intégrer des phénomènes cognitifs souvent négligés par les précédentes théories et se fonde sur des bases expérimentales. En outre, il s’agit d’une théorie sociale : elle renvoie donc essentiellement au comportement humain et demeure moins calquée sur la psychologie animale que le skinnérisme classique.

Une théorie cognitive de la régulation du comportement humain

Bandura part de la critique des écoles psychodynamiques qui placent la motivation à l’intérieur de l’individu sans justification causale précise fondée sur une analyse expérimentale. Mais il met aussi en cause le behaviorisme radical de Skinner qui place le problème de la motivation entièrement dans l’environnement et les contingences de renforcement externes.

La plupart des participants à cette querelle entre motivations externe et interne ont adopté la position selon laquelle l’environnement et la personne se déterminent l’un l’autre. Bandura propose un schéma où le comportement externe, la personne et l’environnement sont en constantes interactions. Il s’agit d’un Modèle interactionnelmodèle interactionnel qui postule, à l’inverse du conditionnement opérant, un organisme actif. Ce modèle est représenté dans la figure 3.3.

Figure 3.3

Modèle bidirectionnel.

(d’après Bandura)

Imitation, cognition et régulation du comportement humain

Les processus symboliques et l’apprentissage social par imitation sont étroitement liés. Ils jouent un rôle prépondérant dans l’autorégulation du comportement humain. Ils représentent un apprentissage moins coûteux et plus rapide que l’apprentissage par essais et erreurs. Le renforcement mécanique et externe est un modèle d’apprentissage préférentiel pour les organismes dits inférieurs, c’est-à-dire possédant des capacités symboliques limitées. Deux types de processus régissent l’apprentissage humain :

• les processus symboliques ou cognitifs (pensées, images mentales, croyances, etc.). Ces processus sont accessibles à l’analyse expérimentale et ne sont pas de pures inférences. Des travaux comme ceux de Spielberger et de Nike, cités par Bandura ont montré que, lorsqu’on les soumet à un programme de conditionnement opérant cherchant à renforcer chez eux l’expression de certains mots (conditionnement verbal), les performances sont meilleures si les sujets ont conscience du programme de renforcement de l’expérimentateur. Elles sont nettement moins bonnes si les sujets ignorent la contingence de renforcement et sont renforcés de façon purement externe. La conscience du renforcement est nécessaire à la modification du comportement ;

• l’apprentissage social par imitation. Celui-ci consiste en l’apprentissage vicariant ; il a lieu par l’intermédiaire de l’observation de modèles qui peuvent être réels, symboliques ou imaginaires (modeling).