1. INTRODUCTION
La parole contient des informations spectrales et temporelles redondantes et complémentaires, ce qui explique la possibilité de comprendre une langue connue sans en avoir perçu toute l’information acoustique. À l’inverse, la perception des éléments acoustiques d’une langue étrangère ne permet pas toujours d’en comprendre le sens.
Cette redondance d’information permet une variabilité extraordinaire tant dans la production de la parole que dans son analyse.
La production vocale varie en fonction des critères suivants : âge, sexe, milieu social, humeur du moment (stress, colère, etc.), état de santé, conditions d’émission (conversation libre ou lecture d’un texte), objectif du locuteur (ordre, explication, démonstration, etc.). La production peut également être modifiée en fonction du vécu de l’événement (nouveau ou connu, agréable ou non, etc.).
Ces critères font varier le rythme de la voix, la vitesse d’élocution, les intonations ou des éléments plus subtils tel le VOT (voice onset time) que nous aborderons un peu plus loin.
Si la parole est très variable dans sa production, elle ne l’est pas moins dans son analyse.
L’analyse d’un message vocal va donc être également très différente d’un individu à l’autre, chacun mettant en place une stratégie qui lui est propre.
Cette stratégie n’est pas constante et peut être dépendante du milieu (calme, bruyant, résonnant, etc.), du locuteur, de ses propres aptitudes et de ses choix (le cortex réalisant la plupart du temps une analyse automatique).
La grande redondance des informations acoustiques contenues dans la voix rend donc les choix stratégiques variables en fonction de nombreux paramètres, l’analyse du message pouvant se faire en privilégiant l’information temporelle, fréquentielle ou un mélange des deux à la fois.
2. HISTORIQUE
2.1. Jean-Claude LAFON
Le professeur Jean-Claude LAFON (1961) a montré que la voix avait une constitution impulsionnelle. Pour démontrer ce fait, il ralentit progressivement un enregistrement sonore de bruit et constate que plus la vitesse de lecture de la bande diminue, plus le son perçu devient grave, un fort ralentissement allant jusqu’à le rendre inaudible.
En revanche, si le signal sonore est de la voix, la perception devient dans un premier temps de plus en plus grave jusqu’à dépasser le seuil d’intégration de l’appareil. Dans un second temps, l’auditeur perçoit un bruit de type « ploc », comme le ferait une bulle qui éclate en arrivant à la surface de l’eau. La parole est donc une succession de « ploc » qui sont en fait des impulsions. En ralentissant encore la bande sonore, les « ploc » sont perçus à intervalles de plus en plus longs.
Une impulsion est entendue, car elle contient toutes les fréquences.
2.2. Joseph FOURIER
Les informations temporelles et fréquentielles contenues dans un message sont intimement liées. C’est le physicien Joseph FOURIER qui, en 1812, a montré par le calcul que des sons périodiques complexes (ou sons musicaux) peuvent être décomposés en une succession de sons sinusoïdaux, appelés harmoniques, dont les fréquences sont toutes multiples d’une même fréquence F0 appelée fondamentale.
Cette découverte, extraordinaire pour l’époque, permet de passer d’une représentation temporelle d’un son à une représentation fréquentielle ou l’inverse par l’utilisation d’un outil mathématique : la transformée de FOURIER ou son inverse.
La représentation d’un son pur sera donc différente en fonction de la référence utilisée. Un son pur sera représenté par une sinusoïde sur un axe temps–intensité, alors qu’il sera représenté par une raie caractéristique de la fréquence du signal sur un axe fréquence–intensité.
2.3. La théorie des ondelettes
GRAPS propose une alternative à la transformée de FOURIER pour expliquer notre capacité à gérer la variabilité du signal de parole. C’est la théorie des ondelettes (wavelets transformation). Cette méthode repose sur le principe de l’appariement entre un signal physique de forme variable et un référent. Par des méthodes mathématiques qui consistent à transformer la représentation spectrographique du signal à la fois dans le domaine spectral et temporel, on peut apparier des signaux de parole variant sur ces deux dimensions avec une représentation normalisée.
On trouve dans le domaine de la vision des propositions alternatives telles les cônes généralisés MARR (1982) ou les géons BIEDERMAN (1987). Le principe consiste à utiliser un nombre restreint de formes (cônes ou géons) pour décrire une scène visuelle. En prenant un nombre suffisant de cônes par exemple, on peut reproduire une scène visuelle par la combinaison de ces cônes, en faisant varier leur taille et leur disposition respective.
Il reste à identifier en mémoire le ou les objets qui correspondent à cette combinaison de cônes. C’est la configuration des cônes entre eux qui permet de récupérer l’objet en mémoire.
Par la théorie des ondelettes, il est possible d’arriver à une représentation spectrographique d’un signal sonore en utilisant une multitude de petites ondes selon le même principe. Ce procédé est utilisé à l’heure actuelle pour la reconnaissance automatique de la parole. Il n’existe par contre pas de modèle cognitif de traitement de la parole réalisé par cette méthode.
3. DÉCODAGE ET ANALYSE
3.1. Décodage d’un signal par la cochlée
Bien que les notions de fréquence et de temps soient intimement liées, ce sont les variations de temps qui seront traitées dans ce chapitre.
Lorsqu’on stimule une fibre auditive avec un signal sinusoïdal, celle-ci émet des potentiels d’action successifs dont la période d’émission est l’inverse de la fréquence.
Par exemple, si la fréquence du son pur stimulant est de 408Hz, la période entre deux potentiels d’action sera de 2,4ms (1/408 = 2,45).
Ce codage fonctionne ainsi jusqu’à 1000Hz, délivrant pour cette fréquence un potentiel d’action toutes les 1ms. Au-dessus de cette fréquence, on atteint la période réfractaire de la fibre auditive et le rythme des potentiels d’action ne peut plus augmenter. Le codage temporel ne peut donc fonctionner qu’en dessous de 1000Hz.
Cependant, la durée d’amortissement d’une impulsion par la cochlée est de 60ms (équivalent à 17Hz).
En conséquence, au-dessus de 1000Hz, le rythme d’émission n’est plus modifié et en dessous de 17Hz, tout est distinct et donc successif. Entre les deux, plus on s’approche de 17Hz, plus le signal perçu correspond à la notion de l’analyse d’une durée.
On comprend ainsi pourquoi certains auteurs définissent l’enveloppe temporelle comme l’ensemble des modulations d’amplitude inférieures à 50Hz, alors que d’autres la situent plus précisément comprise entre 4 et 16Hz. Ces approximations sont directement liées aux capacités de transmission des voies auditives.
3.2. Enveloppes spectrale et temporelle
Il est important de ne pas confondre enveloppe spectrale et enveloppe temporelle.
L’enveloppe spectrale est définie comme la courbe qui enveloppe le signal sur sa représentation fréquentielle ou spectrale sur un axe fréquence/intensité.
L’enveloppe temporelle est définie comme la courbe de plus faibles variations qui enveloppe le signal sur sa représentation temporelle sur un axe temps/intensité. L’enveloppe temporelle correspond à l’intégration de la courbe.
Pour passer d’une représentation à l’autre, on utilise la transformée de FOURIER ou son inverse.
3.3. Tonotopie temporelle
Au niveau de la cochlée, le codage de la fréquence étant tonotopique (chaque zone géographique codant pour une fréquence donnée), il paraît donc judicieux de penser que le codage de l’information temporelle l’est aussi.
Sur la figure 4.1, l’équipe de Frank LEFÈVRE, Émeric KATONA et Stéphane LAURENT propose une analyse de l’enveloppe temporelle par bande filtrée :
– bande 1 – F0 voisement mélodie intonation (homme) ;
– bande 2 – F1 de la plupart des voyelles ;
– bande 3 – reste du F1 ou F2 ;
– bande 4 – F2 de la plupart des voyelles et partie la moins aiguë des bruits de friction ;
– bande 5 – F3 et bruits de friction ;
– bande 6 – bruits de friction les plus aigus.
Figure 4.1 |
Dans cette étude, ce sont les variations d’amplitude de chaque bande de fréquence qui sont analysées et non l’information fréquentielle à proprement parler. La comparaison se fait sur la première syllabe qui est bien synchronisée.
Le phonème /ʃ/ étant plus intense que le phonème /f /, une perte auditive sélective dans l’aigu sera source de confusion sur le plan temporel, et cela indépendamment de la perte de l’information fréquentielle.
Cette représentation temporelle des éléments de la parole permet, tout comme la représentation fréquentielle plus habituelle, d’expliquer les confusions phonétiques lors d’une perte auditive.
En pratique, on se rend compte que les informations fréquentielle et temporelle sont intimement liées et que chaque auditeur utilisera des informations différentes, rendant l’analyse du message unique.
3.4. Acuité et TMTF
3.4.1. Acuité temporelle
Les sons consistent en des changements rapides de pression dans un milieu acoustique.
Les variations les plus rapides (> 1000Hz) sont dénommées structure fine, alors que les variations les plus lentes sont dénommées enveloppe temporelle.
Sur la figure 4.2, la première sinusoïde laisse une impression de stabilité car son enveloppe est constante, alors que le deuxième signal du bas donne une impression de variation car son enveloppe varie. Dans les deux cas, la fréquence est la même.
Figure 4.2 |
L’acuité temporelle se réfère à la capacité à détecter des changements dans l’enveloppe temporelle d’un son et non dans sa structure fine.
L’auditeur est donc sensible à l’enveloppe et non à la structure fine. Ainsi, la sonie globale d’un son dépend de la variation de l’enveloppe temporelle.
La réalité est cependant plus complexe puisqu’un son croissant en intensité paraît plus fort qu’un son symétrique décroissant.
Sur la figure 4.3, la sensation d’intensité du son 1 paraît plus importante que la sonie du son 2, alors que le niveau équivalent de pression mesuré par un sonomètre intégrateur est le même pour les deux sons.
Figure 4.3 |
3.4.2. TMTF
En 1979, VIEMESTER définit la fonction de transfert de modulation temporelle ou TMTF comme outil de mesure de l’acuité temporelle d’un individu.
La TMTF est caractérisée par la capacité d’un sujet à détecter une modulation sinusoïdale d’amplitude appliquée à un bruit large bande ou à un signal très aigu, la fréquence de la modulation pouvant aller de quelques hertz à plusieurs centaines de hertz.
Expérimentalement, il existe une relation entre la dégradation de ces modulations d’amplitude et la dégradation de l’intelligibilité de la parole.
L’étude des TMTF, réalisée sur des patients atteints de perte auditive périphérique cochléaire, montre qu’il n’existe pas dans ce cas de dégradation de l’acuité temporelle (5 à 70Hz) (RENARD C., 2000). Une dégradation de l’acuité temporelle est par contre observée lors d’atteintes centrales, alors que l’audiogramme peut être tout à fait normal.
L’approche TMTF est basée sur le principe de l’analyse des systèmes linéaires et suppose que le système auditif n’introduit pas de distorsions. Ce qui n’est pas totalement exact du fait d’un décalage dans les temps de conduction de l’information entre la voie de droite et celle de gauche.
Selon LORENZI C. (2001), le système auditif introduit un certain nombre de distorsions dans la représentation interne de l’enveloppe temporelle des sons, enrichissant ainsi cette dernière de composantes supplémentaires.
Une nouvelle approche des traitements temporels découle directement de ce constat et est basée sur la description quantitative de la réponse du système auditif à des enveloppes ou « modulations du 2e ordre ».
Les mesures réalisées par les TMTF dites de 2e ordre permettent de mettre en évidence et de caractériser les effets des distorsions produites par le système auditif.
3.5. Analyse par le cerveau
De nombreuses études dans le domaine cherchent à percer le fonctionnement du cerveau. Selon D. POEPPEL et al. (2001), le cortex auditif échantillonne le signal acoustique avec une fenêtre temporelle différente à droite et à gauche. La fenêtre temporelle serait de 20ms à gauche et de 200ms à droite.
Cette différence explique l’aptitude à une analyse privilégiée des contrastes phonétiques par l’hémisphère gauche (20ms ⇔ 50Hz), tandis que le droit serait davantage sensible à la mélodie, au rythme et à l’intonation, cet ensemble correspondant à la prosodie (200ms ⇔ 5Hz).
DEHAENE-LAMBERTZ et al. (2004) ont montré que l’information auditive n’était pas traitée de la même manière selon qu’elle était considérée comme un signal acoustique ou comme une syllabe, le traitement par le cerveau d’une syllabe étant plus rapide que le traitement d’un signal acoustique.
4. COMPRESSION ET DÉBIT
4.1. Compression-Expansion
Il peut être tentant, pour améliorer le message vocal, de modifier la compression ou l’expansion pour rendre les informations temporelles plus présentes. Le résultat n’est malheureusement pas aussi prometteur que l’hypothèse. En effet, une compression trop importante lisse l’enveloppe temporelle et dégrade donc le message, tandis qu’une expansion de cette enveloppe n’améliore pas forcément les scores de reconnaissance et peut même dans certains cas les dégrader.
4.2. Débit
Alors que les résultats restent décevants lors d’une compression sur l’axe des intensités, on constate une amélioration lorsque la compression agit sur l’axe du temps, ce traitement correspondant à une augmentation du débit de parole.
Deux raisons expliquent cette amélioration. D’une part, la parole est redondante et reste donc intelligible après élimination de petits fragments. D’autre part, l’homme peut traiter l’information à un débit plus élevé que celui du langage parlé qui va en moyenne de 125 à 175 mots/min.
Pour réaliser cette compression, deux techniques existent : la plus simple consiste à augmenter la vitesse de lecture d’une bande, la deuxième à couper de petits fragments du message à intervalle régulier de 1 à 20ms.
Alors qu’en mode normal le débit moyen correspond environ à 135 mots/min, l’écoute accélérée permet de comprendre avec une intelligibilité supérieure à 90 % jusqu’à 202 mots/min et la compression temporelle jusqu’à 270 mots/min.
La parole comprimée est plus efficace, car elle permet d’accéder à la même quantité d’information dans un temps plus court. Elle n’a de plus pas l’inconvénient de la parole accélérée qui est plus aiguë d’une octave, ce glissement fréquentiel devenant rapidement insupportable.