5. Données Fréquentielles et Temporelles de la Perception de la Parole



1. INTRODUCTION


« L’étymologie du terme cognitif renvoie à la notion de connaissance. Ce terme a ensuite été utilisé dans un sens plus précis pour désigner les conditions qui permettent l’acquisition et le développement d’une connaissance du monde. Il va sans dire que la perception joue un rôle essentiel à ce niveau : aucune théorie de la connaissance ne serait complète sans une théorie de son acquisition et donc de la perception. L’étude des aspects cognitifs de l’audition a pour objectif de comprendre comment l’information auditive contribue fondamentalement au développement de la connaissance » Mc ADAMS (1994).

La perception, c’est la représentation d’un objet, construite par la conscience à partir de sensation (Dictionnaire Hachette). C’est aussi l’ensemble des mécanismes et processus par lesquels l’organisme prend connaissance du monde, de son environnement sur la base des informations élaborées par ses sens (Larousse de psychologie).

Ici : l’objet est la parole ; l’organe sensoriel, l’oreille.

Percevoir l’objet parole, c’est alors en coder les éléments pour en extraire ensuite le sens.

La perception joue un rôle important puisqu’il y a acquisition. Ceci sous-entend, vu sous l’angle des sciences cognitives, une organisation spontanée des excitations des récepteurs de la modalité sensorielle oreille en unités perceptives structurées, individualisées et douées d’une forme.

« Il existe un continuum entre les processus élémentaires comme le traitement de l’information sensorielle et les aspects abstraits comme le traitement de l’information symbolique ; c’est tout l’intérêt du projet cognitiviste que de montrer ce continuum »Mc ADAMS (1994).

La parole est d’une grande complexité : son analyse globale est impossible ; il nous faut la décomposer à travers différentes analyses : acoustique, psychoacoustique, phonologique et perceptive.

C’est cette vision d’ensemble que nous allons parcourir (figure 5.1).








B9782294063428500057/f05-01-9782294063428.jpg is missing
Figure 5.1
Principaux processus de traitement de l’information auditive et leurs interactions.


« Le temps est une dimension primordiale de la perception auditive : les sons environnementaux, les sons de parole ou encore les sons produits par les instruments musicaux consistent en des changements de pression rapides dans un milieu acoustique donné. Des travaux récents suggèrent une distinction fondamentale entre d’un côté les variations de pression les plus rapides : > 0,5kHz, dénommées « structure fine » du signal et, de l’autre côté, des variations plus lentes de, l’amplitude de ces fluctuations dénommées « enveloppe temporelle ». Enveloppe et structure fine correspondraient ainsi à deux attributs (features) temporels essentiels des traitements auditifs. Il ressort de ces développements récents que la capacité de notre système à extraire et à utiliser ces deux attributs est essentielle pour l’identification de la parole ou de la musique, et qu’un déficit de cette capacité pourrait expliquer certains troubles observés dans les pathologies auditives périphériques et centrales »LORENZI (2000).


2. CODAGE DE LA PAROLE


L’acuité temporelle auditive, ou la résolution temporelle auditive, est la capacité à détecter les modifications de l’enveloppe temporelle d’un son. Ces modifications sont les modulations d’amplitude du signal lentes, comprises entre quelques hertz et quelques dizaines de hertz, et les fluctuations d’amplitude rapides du signal comprises entre quelques centaines et quelques milliers de hertz. « L’amplitude et la fréquence de la modulation du spectre temporel de la parole sont des caractéristiques indispensables à sa perception »DEMANY (1997).

On peut décomposer la structure temporelle du signal d’onde d’un logatome en son enveloppe : modulations d’amplitude lentes, et sa structure fine : fluctuation d’amplitude lente par transformée de HILBERT (figure 5.2).








B9782294063428500057/f05-02-9782294063428.jpg is missing
Figure 5.2
Signal d’onde (en haut), enveloppe temporelle (au milieu : « Hilbert envelope ») et structure temporelle fin e (en bas : « Hilbert carrier ») du logatome /aba/ prononcé par une locutrice française dans le silence. L’enveloppe temporelle représente bien les fluctuations les plus lentes de l’énergie du signal, inférieures à 50Hz environ, alors que la structure fine représente les fluctuations d’énergie rapides du signal, comprises entre 0,5 et 5kHz environ.


Au niveau cochléaire :

Il existe deux mécanismes distincts pour la détection des modulations de fréquence :


1. pour la détection des modulations lentes du signal comprises entre quelques hertz et quelques dizaines de hertz, il y a détection du rythme des potentiels d’actions qui suivent les modifications de la période du son stimulant. Le mécanisme repose sur le codage de la fréquence sur le nerf auditif. Quand une fibre de nerf auditif répond à un son pur, le rythme des potentiels d’actions qui sont émis dans cette fibre est lié à la période du son. Lorsqu’on module la fréquence du son, le rythme des potentiels d’action suit la modification de la période ;


2. pour la détection des modulations d’amplitude rapides du signal dites structure temporelle fine, il y a détection du déplacement du pattern d’excitation de la fibre du nerf auditif en rapport avec le pattern d’excitation de la cochlée pour un son pur. Qui dit pattern d’excitation, dit taux de décharge sur les fibres du nerf auditif. La modulation est donc détectée par la variation du taux de décharge des fibres du nerf auditif.

Les fibres du nerf auditif fonctionnent comme un filtre passe-bas. Au niveau de la cochlée, un son pur d’une certaine fréquence produit un mouvement du pattern d’excitation « localisé ». L’excitation est maximale à une place précise (principe même de la notion de tonotopie cochléaire) et décroît de façon continue quand on s’éloigne de cette place. Si la cochlée est saine, la décroissance est rapide et le pattern d’excitation pointu.

Si on applique une modulation de fréquence à un son pur, elle provoque un mouvement du pattern d’excitation créé par ce son pur, et l’amplitude du mouvement est d’autant plus grande que la modulation de fréquence est large : le seuil de détection d’une modulation de fréquence est en fait le seuil de détection d’un déplacement du pattern d’excitation. Nous faisons ici le choix des figures extraites des Cahiers de l’Audition, vol.8, n° 4, 1995 de P. AVAN. Elles nous semblent synthétiser l’extrême précision dès la cochlée des phénomènes de détection des éléments pertinents de la parole, de leur tout premier codage pour une intégration vers le cortex : la précision du pattern d’excitation, la courbe d’accord qui en résulte pour une bonne tonotopie, la variation de ce pattern pour détecter les modulations de fréquences et enfin le lien qui existe entre la période du son stimulant et la périodicité des potentiels d’actions sur la fibre du nerf auditif. Ce traitement jouant aussi son rôle dans le contrôle du déphasage interaural (figures 5.3 et 5.4).








B9782294063428500057/f05-03-9782294063428.jpg is missing
Figure 5.3
Aux basses fréquences, les courbes d’accord des neurones auditifs (diagramme du haut) sont plus larges qu’en hautes fréquences. La tonotopie cochléaire est moins précise. Cependant, les potentiels d’action deviennent plus synchrones avec l’onde de pression qui leur donne naissance, tout au moins sur un plan statistique (diagramme du bas, tracé pour un stimulus de 300Hz). En combinant les informations de plusieurs neurones, on obtient un histogramme de probabilité de présence de potentiels d’action au cours de la période du stimulus qui reconstitue la forme de ce stimulus. Extrait des Cahiers de l’Audition, vol 8, n° 4, décembre 1995.









B9782294063428500057/f05-04-9782294063428.jpg is missing
Figure 5.4
Lorsque l’oreille interne est stimulée par une vibration acoustique de fréquence donnée transmise par l’étrier au niveau de la fenêtre ovale, un gradient de pression s’établit entre les rampes vestibulaire et tympanique de la cochlée, et la membrane basilaire adopte un pattern vibratoire classiquement désigné sous le terme « traveling wave » (diagramme du haut). L’endroit du maximum de vibration de la membrane basilaire est lié à la fréquence du son par une relation tonotopique. Les fib res afférentes du nerf auditif issues de cet endroit donnent lieu à une augmentation nette de leur taux de potentiels d’action, ce qui n’est pas le cas des fibres voisines. Elles vont donc coder pour la fréquence du son pur incident. En effet, la courbe d’accord des neurones auditifs afférents est très étroite (diagramme du bas) : en hautes fréquences, le niveau seuil du son excitateur donnant lieu à une réponse neuronale n’est bas que pour un intervalle de fréquences très étroit (20dB SPL autour de 9kHz sur cet exemple). Extrait des Cahiers de l’Audition, vol 8, n° 4, décembre 1995.


On a coutume de dire, selon P. AVAN : « La fréquence c’est du temps et inversement. » Les références à l’analyse de FOURIER, nombreuses en audioprothèse, nous font passer de l’une à l’autre et inversement sans qu’on y prête vraiment attention. Pourtant dès la cochlée et les noyaux cochléaires, les choses sont fixées, qu’il s’agisse de la tonotopie ou du codage des éléments fins de la parole et notamment des variations fines de son spectre temporel. Il en découle la notion de l’acuité temporelle ou résolution temporelle qui est la capacité à détecter ces modifications de l’enveloppe temporelle d’un son ; acuité qui se modifie en amont de la perte auditive avec l’âge (figure 5.5).








B9782294063428500057/f05-05-9782294063428.jpg is missing
Figure 5.5
Diagramme du haut : lorsque l’on expose un animal de manière prolongée à un son pur, le métabolisme du glucose est plus actif dans la zone du noyau central du colliculus inférieur qui répond à cette fréquence de manière privilégiée. Un marquage de cette zone est effectué grâce à un équivalent non métabolisable du glucose, le 2-déoxyglucose, dont la quantité accumulée dans les neurones concernés est proportionnelle à la consommation de glucose. On la détecte ensuite par autoradiographie, le 2-déoxyglucose étant marqué radioactivement. Lorsque deux stimulations sonores, à 4 et 16kHz, ont été successivement appliquées, deux bandes marquées sont délimitées, correspondant aux deux zones codant pour 4 et 16kHz. Diagramme du bas : par imagerie fonctionnelle basée sur les potentiels évoqués magnétiques, on peut localiser l’aire corticale auditive primaire répondant de manière privilégiée lors d’une stimulation sonore en son pur de fréquence donnée. Une carte « tonotopique » du lobe temporal peut ainsi être obtenue, et reconstituée sur une coupe coronale en imagerie par RMN. Extrait des Cahiers de l’Audition, vol 8, n° 4, décembre 1995.

(d’après CAIRD, 1991, avec permission) (d’après PANTEV et coll., 1991, avec permission)

La parole est un mélange de sons complexes avec des caractéristiques fréquentielles et temporelles précises mais elle est aussi faite d’éléments fins comme les transitions des formants influencées par le contexte dans lequel elles se produisent, les variations du fondamental laryngé ou encore de ses éléments voisés ; l’ensemble de ces éléments est détecté grâce aux modulations fines lentes ou rapides du spectre dont nous venons de parler. La notion d’intelligibilité dépend essentiellement de ces éléments.


3. TRAITEMENT DE LA PAROLE LE LONG DES VOIES AUDITIVES


Le système nerveux auditif conserve l’organisation spatiotemporelle établie par la cochlée et effectue un traitement important de l’information temporelle (DELGUTTE, 1997) (tableau 5.1).


















Tableau 5.1 Tableau synthétique des différents codages et analyses sur les voies auditives, en rappel
Périphérie Système afférent codage, F, T, I Système efférent contrôle, protection Analyse acoustique
Voies auditives Transfert et codage Régulation, inhibition renforcement Analyse phonétique et psychoacoustique
Centres auditifs Perception, reconnaissance Attention, mémoire volonté

Ce traitement temporel accentue la représentation des transitoires, introduit la prise en compte des effets de contexte et devient de plus en plus élaboré au fur et à mesure que l’on s’approche du cortex (figures 5.6a, b et 5.7).








B9782294063428500057/f05-06a-9782294063428.jpg is missing
Figure 5.6a
Analyse physique de la parole. Extrait des Cahiers de l’Audition, vol 10, n° 4, juillet/août 1997.









B9782294063428500057/f05-06b-9782294063428.jpg is missing
Figure 5.6b
Réponse du nerf auditif à une voyelle simplifiée. Extrait des Cahiers de l’Audition, vol 10, n° 4, juillet/ août 1997.









B9782294063428500057/f05-07-9782294063428.jpg is missing
Figure 5.7
Sonogramme de 6 syllabes synthétiques. Extrait des Cahiers de l’Audition, vol 10, n° 4, juillet/août 1997.


Le système nerveux auditif est constitué par les voies auditives droite et gauche afférentes et efférentes, des croisements aux nombres de quatre voire cinq ; ses fibres se projettent au niveau des deux hémisphères sur les aires auditives corticales (figure 5.8).








B9782294063428500057/f05-08-9782294063428.jpg is missing
Figure 5.8
Système nerveux auditif.


Il existe un décalage de conduction entre la voie droite et gauche d’où une asymétrie de fonctionnement qui se retrouve au niveau des hémisphères. La tonotopie est présente à tous les niveaux ; des cellules spécialisées sont localisées dans les différents noyaux traversés avec des rôles définis de contrôle, de comparaison ou d’inhibition pour renforcer les signaux codés.

L’activation du cerveau auditif est donc asymétrique : la voie controlatérale est prépondérante (neuroanatomie), le délai d’activation est asynchrone et plus précoce dans l’hémisphère controlatéral à la stimulation (neurophysiologie).

De cette organisation découle une spécificité hémisphérique :


– à l’hémisphère gauche qui reçoit les informations de l’oreille droite : le traitement des aspects verbaux et non verbaux, la production et la perception de la parole, la détection de changements rapides, complexes et tenus tels que les consonnes, les transitions formantiques, et donc de leurs supports que sont les modulations du spectre de la parole ;


– à l’hémisphère droit qui lui reçoit les informations de l’oreille gauche : le traitement des éléments prosodiques et émotionnels de la parole, des sons simples, des transitions simples, des voyelles ; l’hémisphère droit devient dominant dans le bruit.

Les deux hémisphères sont nécessaires pour la compréhension. Des projections de la réponse tonotopique existent au niveau des deux hémisphères (GABRIEL et al., 2004) (figure 5.9).








B9782294063428500057/f05-09-9782294063428.jpg is missing
Figure 5.9
À l’aide de l’onde N1m enregistrée par la technique de la « mismatch negativity », les auteurs mettent en évidence les projections tonotopiques au niveau des aires corticales des stimulations contro- et ipsilatérales, chez 10 sujets et pour les fréquences 1, 2, 4, 6, 8, 12khz ; (A) (B) montrent les réponses Ant-Sup ; (C) (D) les réponses Inf-Sup.


L’audition binaurale naît de ce fonctionnement asymétrique ; mais pour elle également, il existe dès la cochlée et les noyaux cochléaires un codage du déphasage interaural qui constitue un des éléments essentiels de sa réalité fonctionnelle et qui tout au long des voies auditives sera traité, amélioré, comparé, renforcé lui aussi pour apporter au cortex auditif des éléments saillants, indispensables et donc pertinents pour leur interprétation. Le fonctionnement asymétrique tend à se symétriser avec l’âge (figures 5.10 et 5.11).








B9782294063428500057/f05-10-9782294063428.jpg is missing
Figure 5.10
Effet de l’âge sur le degré d’asymétrie des réponses dans le lobe temporal, à l’aide de l’onde P1-N1 peak to peak amplitude. Les résultats montrent que chez l’enfant et le jeune adulte le pourcentage de réponses asymétriques est très important, alors que chez l’adulte âgé on observe l’effet inverse.









B9782294063428500057/f05-11-9782294063428.jpg is missing
Figure 5.11
Autre représentation des résultats avec la même technique, du fonctionnement asymétrique du cortex auditif ; on repère facilement les réponses asymétriques chez les enfants et les jeunes adultes et leur symétrisation chez les sujets âgés.



4. PERTINENCE DES ÉLÉMENTS FRÉQUENTIELS ET TEMPORELS


Les caractéristiques fréquentielles et temporelles du signal de parole sont étroitement liées et il est difficile de séparer les deux informations en ce qui concerne leur pertinence pour la reconnaissance. Si on prend par exemple l’indice de voisement, on sait que les éléments fréquentiels (la valeur de la fréquence du fondamental laryngé) et les éléments temporels (la périodicité du signal à la fréquence fondamentale) vont être simultanément informatifs. Si on étudie l’importance du pôle de bruit d’une consonne, il faut intégrer l’information fréquentielle (la plage fréquentielle dans laquelle se trouve ce pôle de bruit, les éventuelles évolutions de cette composante fréquentielle…) et l’information temporelle (le temps de montée ou d’attaque, la stabilité ou la fluctuation, la décroissance du signal…), ces deux éléments étant simultanément exploités pour la reconnaissance du signal vocal. En fait, ce principe d’une extraction conjointe d’indices fréquentiels et temporels pour l’identification d’un signal de parole est valable pour l’ensemble des phonèmes et des associations phonémiques. Pour l’ensemble de ce paragraphe, nous renvoyons donc le lecteur au chapitre 3 dans lequel sont longuement et précisément décrites les composantes fréquentielles et temporelles des sons de parole.

L’identification de tous les phonèmes (et donc toutes les associations de phonèmes contenues dans les mots) repose ainsi sur l’extraction de différents éléments informatifs, avec une utilisation simultanée des composantes fréquentielles et temporelles. La pertinence de chacun des indices contenus dans le signal de parole va varier selon la nature du signal de parole (phonèmes isolés, logatomes, mots, phrases…) et le contexte (locuteurs, acoustique du local, environnements sonores, caractéristiques du bruit ambiant…).

L’intelligibilité dans un contexte donné, par exemple des phrases émises à voix moyenne dans le calme, sera satisfaisante même si certains indices fréquentiels ou temporels de ce signal ne sont pas perçus. En revanche, des logatomes émis dans le même contexte ne pourront être correctement identifiés compte tenu de l’absence de ces indices, en raison d’une possibilité de suppléance moindre.

De la même manière, des mots dont on a dégradé certains indices fréquentiels ou temporels peuvent être parfaitement compris lorsqu’ils sont entendus dans le calme, alors qu’ils ne seront plus identifiés s’ils sont émis en présence de bruit.

Le traitement par le système auditif des sons de parole est par ailleurs dépendant de mécanismes cognitifs et de processus attentionnels. On parle ainsi souvent de stratégies d’écoute qui sont par ailleurs également conditionnées par l’expérience et font l’objet de grandes variabilités individuelles.

Le développement des différentes techniques de mesures objectives et d’imagerie cérébrale, et le champ d’investigation très large offert par les tests subjectifs (notamment dans le domaine de la neuropsychologie) ont permis de mieux analyser et de mieux comprendre les mécanismes intervenant dans le traitement complexe des stimuli auditifs. Les signaux de parole font évidemment partie des signaux les plus étudiés, en raison de la complexité des processus impliqués et surtout de leur implication majeure dans la communication.

Ces données sont abordées dans d’autres chapitres de cet ouvrage et nous nous limiterons ici à une brève description, illustrée par quelques exemples, de certaines informations liées aux caractéristiques fréquentielles et temporelles des signaux de parole.

CELCIS, DOYON, BOULANOUAR, NESPOULOUS (1997) effectuent une analyse électrophysiologique du traitement des phonèmes /s/ et /f/ émis dans différents contextes. Des tâches d’écoute passive ou active sont requises et différents stimuli distracteurs sont utilisés. Ces distracteurs sont soit des syllabes de la langue française (/si/, /fi/, /vi/ et /zi/), soit des bruits de l’environnement naturels (froissement de papier, eau qui coule), soit des bruits modifiés par incorporation des sons cibles (phonèmes /s/ et /f/ accolés respectivement à un bruit de verre brisé et à un bruit de sirène). La présentation auditive des syllabes permettait de créer un contexte langue et la présentation des sons de l’environnement un contexte bruit. Les potentiels recueillis indiquent alors de nettes différences entre les tracés obtenus à certaines latences pour les deux contextes, ce qui indique que le traitement de ces deux phonèmes par le système auditif a été modifié par le contexte.

NÄÄTÄNEN (1992) étudie l’effet de l’attention sur les Potentiels Évoqués Auditifs et il relève une augmentation de l’intensité de certaines ondes selon la focalisation attentionnelle des signaux, avec des effets différentiels en fonction de leurs durées et de leurs fréquences.

SHARF, QUIGLEY, AOKI, PEACHEY et REEVES (1987), puis SHARF, POSSAMAÏ et BONNEL (1989) montrent que si l’attention est focalisée sur un son d’une fréquence donnée, le sujet va ensuite détecter ce son plus facilement s’il est mélangé à un autre bruit.

MONDOR et BRYDEN (1991), BÉDART, EL MASSOURI, PILLON et NANDRINO (1993) et MONDOR et ZATORRE (1995) analysent l’effet d’un avertisseur préalable et retrouvent une facilitation du traitement des informations ultérieures, ce qui sera décrit comme l’effet d’attente et de préparation des schémas. LABERGE (1995) et CAMUS (1996) décrivent également l’importance de cette « préparation attentionnelle » pour laquelle les paramètres temporels et fréquentiels du signal de parole constituent un élément essentiel.


5. DONNÉES FRÉQUENTIELLES


L’importance des bandes fréquentielles pour l’intelligibilité est parfois décrite sous la forme de tableaux proches de celui de la figure 5.12, où chaque bande de fréquences est caractérisée par un certain degré de pertinence.








B9782294063428500057/f05-12-9782294063428.jpg is missing
Figure 5.12
Degrés de pertinence des Degré de pertinence bandes fréquentielles pour l’intelligibilité.


Le degré de pertinence de chaque bande étudiée est analysé grâce à des tests d’intelligibilité réalisés en modifiant la composition fréquentielle du signal de parole, par divers procédés de filtrage (avec un filtrage passe-haut, un filtrage passe-bas ou un double filtrage), de soustraction, d’atténuation…

D’autres procédés d’analyse consistent à masquer par du bruit une zone fréquentielle donnée et à étudier l’effet délétère de ce masquage sur l’intelligibilité.

L’index d’articulation détermine la contribution de chaque bande sur la performance d’identification. Il est calculé en analysant l’intelligibilité d’un signal vocal dont chaque bande (le signal a été divisé en bandes supposées contribuer de manière identique mais indépendante à l’intelligibilité générale du signal de parole) fait l’objet d’une étude de l’effet d’un rapport signal/bruit variable.

Le rapport signal/bruit de chaque bande permet de calculer un index variant de 0 à 1 appelé poids (wi). Les travaux ont montré que la nature du signal de parole et les conditions d’émission influent sur l’index d’articulation.

Ces analyses permettent de tester l’intelligibilité sur un signal global de parole ou spécifiquement sur certains éléments (phrases, mots, syllabes, phonèmes…) selon les modifications engendrées dans la perception de sa structure fréquentielle.

LAFON (1985) décrit ainsi « les octaves 1000Hz, 2000Hz et 4000Hz comme ceux par lesquels transitent les informations du timbre phonétique où sont représentés la presque totalité des traits pertinents responsables de la reconnaissance des structures phonétiques de la parole ».

Selon DUPRET et LEFÈVRE (1991), la zone des 1000–2000Hz contient les éléments spectraux les plus importants pour la perception de la parole (zone d’évolution du F2 et des transitions phonétiques).

GELFAND (1997) souligne l’importance d’une zone fréquentielle large autour de la fréquence 2000Hz qui semble prépondérante puisque sa dégradation par filtrage provoque la perte d’intelligibilité la plus marquée. L’amputation de zones fréquentielles plus graves ou plus aiguës que cette bande fréquentielle n’affecte que plus faiblement la performance d’intelligibilité.

Mais l’analyse de la pertinence des éléments fréquentiels du signal de parole ne peut se limiter à cette description par bandes, puisque ce sont les indices acoustiques contenus dans les signaux de parole qui vont être analysés dans le traitement fréquentiel réalisé par le système auditif.

De façon beaucoup plus fine et plus complexe qu’une simple analyse par bande de fréquences, ce sont donc les caractéristiques fréquentielles de ces indices qui doivent être prises en compte.

Certains indices fréquentiels présents dans les sons de parole sont particulièrement informatifs et ils contribuent à l’intelligibilité du message vocal (chapitre 3).

Pour les voyelles par exemple, le rôle respectif de ses différents composants (fondamental, harmoniques, formants) peut être analysé. Il semble que l’indice le plus significatif soit essentiellement la valeur des fréquences de la portion stable des deux premiers formants, et plus particulièrement du second. La figure 5.13 proposée par LEFÈVRE (1986) correspond ainsi à une représentation graphique d’une voyelle en fonction du degré de pertinence de son fondamental et de ses formants. Comme dans cette illustration, le rôle du second formant (et donc de la zone fréquentielle dans laquelle évolue ce formant) est donc souvent considéré comme prépondérant pour la reconnaissance de la voyelle.








B9782294063428500057/f05-13-9782294063428.jpg is missing
Figure 5.13
Paramètres phonétiques dans une audiométrie par ordinateur HELMUT BUSKE VERLAG, HAMBOURG. LEFEVRE, F. (1986).


La direction et la longueur des transitions de formants (variation acoustique traduisant les mouvements des articulateurs de la consonne à la voyelle qui suit ou de la voyelle à la consonne qui suit) sont également des indices puissants pour l’identification des consonnes. Même si certains éléments d’une consonne ne peuvent être entendus, la seule perception d’une partie de la transition qui la lie avec la voyelle peut ainsi suffire à son identification. Là encore, c’est la transition du second formant qui semble constituer l’élément le plus important (LIBERMAN et al., 1967 ; LIENARD, 1972).

Dans la figure 5.14, qui représente le sonagramme des mots « aga » et « afa », les différences fréquentielles au niveau des transitions phonétiques du second formant de la voyelle sont particulièrement marquées. Ces différences sont liées aux caractéristiques de la consonne centrale et elles constitueront une information fréquentielle majeure pour l’identification de cette consonne.








B9782294063428500057/f05-14-9782294063428.jpg is missing
Figure 5.14
Sonagramme des mots « aga » et « afa ».


La répartition fréquentielle de l’énergie du signal de parole lors de l’émission d’une consonne est également exploitée pour sa reconnaissance. Cette répartition joue un rôle majeur, tant lors de sa stabilité dans le temps que lors de « mouvements fréquentiels » qui peuvent se produire pendant la durée de la consonne ou pendant la transition avec le phonème.

Only gold members can continue reading. Log In or Register to continue

Stay updated, free articles. Join our Telegram channel

Aug 15, 2017 | Posted by in GÉNÉRAL | Comments Off on 5. Données Fréquentielles et Temporelles de la Perception de la Parole

Full access? Get Clinical Tree

Get Clinical Tree app for offline access