1. LA VOIX, LA PAROLE, LE LANGAGE, LA LANGUE
1.1. La voix
« Production d’un son dans le larynx de l’homme. »
Cette définition de certains dictionnaires est réductrice puisque les animaux, eux-mêmes, ont une voix.
Elle leur permet de communiquer. Nous mêmes identifions les animaux par leur voix et repérons, au milieu d’autres, un animal familier par le timbre de sa voix.
C’est le cas du meneur de la meute de chiens lors d’une chasse au grand gibier : il identifie immédiatement « Pipo » au simple timbre de sa voix parmi tous les aboiements divers et lointains des chiens de sa meute.
La baleine possède un champ auditif qui s’étend de 2Hz à 1500Hz environ.
« Selon les saisons, mâles et femelles se déplacent en troupeaux souvent séparés par des milliers de kilomètres à travers les océans ; mais il leur faut se retrouver pour s’accoupler.
On estime que, de relais en relais, quelques centaines d’appels qu’elles-mêmes lancent à très basse fréquence leur suffisent pour faire pratiquement “le tour du monde” aux latitudes circumpolaires »…
…« Ce qu’on appelle le chant des baleines est la partie rapide de leurs appels, d’ailleurs encore accélérée pour devenir audible pour nos oreilles, et qui constitue plutôt leur conversation (rapprochée) que leurs appels (lointains). » MUNOT P., NÈVE F.X., 2002.
L’éléphant possède un champ auditif qui s’étend de 5Hz à 5500Hz environ.
« Il en va un peu de même du romble des éléphants mâles adultes en certaines périodes ou situations : c’est un appel à très basse fréquence qui se propage imperturbablement à travers la savane, inaudible de la majorité des animaux, et de l’homme, et qui leur permet, à eux aussi, de s’entendre et de se retrouver à des centaines de kilomètres. » MUNOT P., NÈVE F.X., 2002.
Chez l’enfant, la voix apparaît dès la naissance, lorsqu’il émet son premier cri.
Il s’agit d’un « geste réflexe » lié au fait que l’enfant, quittant son milieu liquidien, passe brutalement en respiration aérienne.
Ayant rempli d’air ses poumons pour la première fois, il expire cet air qui traverse le larynx, puis est mis en forme par les cavités pharyngées, le palais, la bouche, la langue.
Ce cri a un timbre.
L’enfant ne sait pas qu’il est le producteur de ce cri, car son développement cérébral est insuffisant.
Ce premier cri rassure l’entourage sur l’oxygénation apportée au cerveau. Une minute après la naissance, puis à cinq minutes de vie, on apprécie l’état de santé du nouveau-né en notant son score d’Apgar, basé sur cinq items : fréquence cardiaque, respiration, coloration de la peau, tonus musculaire, réaction à l’excitation des téguments, notés chacun sur deux points.
Suite à ce premier cri, le bébé émettra souvent de la voix.
Cette voix se différenciera au fil des jours (selon que le bébé est content, qu’il a faim, qu’il souffre…).
Ces différences sont repérées par la mère.
Mais cette voix, différente selon les circonstances, est émise par l’enfant sans que celui-ci ait conscience qu’il en est lui-même le producteur. Il perçoit parfaitement sa propre voix, les autres voix et tous les bruits d’environnement puisque son système auditif est fonctionnel depuis le début du 7e mois de grossesse. Mais l’immaturité de son système nerveux central ne lui permet pas d’intégrer que ces productions vocales sont les siennes.
On parle alors de « gestes moteurs ».
Ce n’est que vers l’âge de 6 mois, pour une naissance à terme (donc à un âge conceptionnel de 15 mois), que l’enfant prend conscience de ses productions vocales grâce à une maturation suffisante de son système nerveux central.
On parle de mise en place de la « boucle audio-phonatoire », l’enfant percevant alors comme sienne sa phonation.
1.2. La parole
« Mot prononcé » nous dit le dictionnaire.
L’enfant perçoit, comme siennes, ses émissions vocales.
Il perçoit aussi celles, renvoyées en écho, de sa mère et de son entourage.
Il prend de plus en plus de plaisir à jouer avec sa voix. On a même parlé de « masturbation laryngée ».
La mère, ou la personne qui fait le maternage, n’aura de cesse, à partir des lallations de son enfant de l’amener, par imitation, à fabriquer un mot signifiant :
– « lalala » dit l’enfant ;
– « lalala » enchaîne la mère qui descend de son piédestal de langage pour coller à la lallation infantile ;
– « lala » répète l’enfant ;
– « la » dit la mère ;
– « la » imite l’enfant.
Ce dernier « la » produit par l’enfant n’est plus une lallation mais un mot signifiant.
On est dans le champ de la parole.
1.3. Le langage
« Système de signes permettant l’expression et la communication de la pensée » précise le dictionnaire.
De l’âge d’un an environ, où l’enfant entre dans le champ de la parole, à l’âge de 4 ans, fin de la maturation du système nerveux central, va se développer le langage.
La mère qui a utilisé, à partir des lallations, la technique de l’imitation pour faire émettre à son enfant des mots signifiants, va l’amener à accoler deux mots signifiants simples :
– « Papa là » ;
– « Maman donne »…
Les parents, les grands-parents, l’entourage agiront de même.
On est dans le champ du langage.
1.4. La langue
« Vocabulaire et syntaxe propres à une communauté » décrit le dictionnaire.
L’acquisition du « langage maternel » est quasiment achevée à l’âge de 4 ans. Il s’agit bien du langage maternel et non pas de la langue maternelle. Ainsi, un bébé français, placé dès la naissance dans une famille italienne qui ne s’exprime que dans cette langue, aura l’italien comme langage maternel à 4 ans.
Mais cette acquisition du langage maternel n’intègre que partiellement l’apprentissage de la langue.
Il manque en effet à l’enfant des connaissances essentielles de grammaire, de syntaxe…
Ceci sera le travail de la famille (incluant le rôle social important des grands-parents), de l’école, etc.
2. LES DIVERS SONS DE PAROLE
La parole est constituée de plusieurs éléments, appelés phonèmes, dépendants les uns des autres.
On peut les caractériser par leurs aspects fréquentiels : présence ou non du fondamental laryngé, formants, transitions phonétiques, bruits d’explosion ou de friction.
On peut aussi les caractériser par leurs aspects temporels.
Pour passer du niveau le plus simple de la parole à celui du langage, il faudra gravir trois niveaux de complexité.
Un ou plusieurs phonèmes vont constituer la syllabe qui est une « unité phonétique fondamentale qui se prononce d’une seule émission de voix ».
Une ou plusieurs syllabes vont constituer le mot. C’est le « son ou groupe de sons d’une langue auquel est associé un sens, et que les usagers de cette langue considèrent comme formant une unité autonome ».
Plusieurs mots vont constituer la phrase. Elle est « assemblage de mots, énoncé, qui présente un sens complet ».
3. LES PHONÈMES DE LA LANGUE FRANÇAISE
3.1. L’alphabet phonétique
Il nous apparaît indispensable de présenter l’alphabet phonétique. En effet, certaines rédactions, observables dans la littérature ou sur le Net, présentent des erreurs que nous avons voulu éviter.
Ainsi sont référés trente-six phonèmes :
– seize voyelles, dont douze voyelles orales (tableau 3.1) et quatre voyelles nasales (tableau 3.2) ;
Symboles | ||||
V | u | ou | mou, doux, genou, roue | |
y | u | mue, connu, ils eurent | ||
O | i | i | mi, ami, bille, cygne | |
O | ||||
Y | o | o | mot, gauche, rose, dôme | |
R | ø | eu | meut, deux, vœu, peu, œufs | |
E | e | é | dés, rémi, blé, gué, guet | |
A | ||||
L | L | ⊃ | o | molle, pomme, or, corps |
L | E | ə | e | me, monsieur, demain |
œ | eu | meurt, meuble, heure, œuf | ||
E | S | ε | è | mais, allégresse, riais, guet-apens |
S | a | â | mât, âne, pâle, tâche | |
a | a | ma, crabe, papa, nappe, tache |
V | Symboles | |||
O Y E L L E S | N A S A L E S | ã | on an un in | mont, nom, ombre, bon, pont an, ment, vent, sans, paon, temps un, lundi, brun, opportun, parfum main, plein, lin, pain |
– trois semi-voyelles (tableau 3.7).
C | Symboles | Occlusives | |
O N S O N N E S | P | p | par, poire, appartement |
t | t | teint, mite, serviette | |
k | k | car, que, képi, sacoche | |
b d | b d | bar, bien, abbaye, abri daim, demi, édifice | |
g | g | gare, dogue, seconde |
C | Symboles | Nasales | |
O N S O N N E S | m n | m n gn | mare, maman, femme nain, âne, navet agneau, ignoble, digne |
C | Symboles | Liquides | |
O N S O N N E S | 1 R | 1 r | lire, alto, malle rire, finir, barre |
C | Symboles | Constrictives | |
O N S O N N E S | ∫ S f Ʒ Z V | ch s f J z v | chou, tache, shérif selle, cela, hameçon, attention, passer fer, photo, affreux joue, âge, gendarme zèle, rose, maison verre, ravin, vieux |
N.B. : alouette, ouest, situé : selon la prononciation en 1 ou 2 syllabes (synérèse ou diérèse) | ||||
S | V | Symboles | ||
E M I | V O Y E L L E S | J W Ч | ien – ail oin – oui uint – ui | sien, pied, œil, yeux, ail, paille, bille soin, loin, oui, louis, alouette, ouest, moi suint, lui, nuit, situé, huile |
Il faut être très attentif à la façon de noter dans sa cabine insonore les erreurs commises par le patient lors des tests phonétiques et, pour ce faire, il est nécessaire de s’appuyer sur un référentiel d’écriture phonétique.
Par exemple, en disant « il traverse le gué » ou « il fait le guet », on utilise le phonème /e/ alors qu’en disant « un guet-apens » on utilise un autre phonème /ε/.
On pourrait dire la même chose devant la confusion entre les mots « tache » et « tâche » pour lesquels on utilise le phonème /a/ ou le phonème /a/.
Ce référentiel d’alphabet phonétique devrait d’ailleurs être à la disposition des étudiants et des stagiaires dans toutes nos cabines insonores pour créer de suite les bons réflexes.
Lors d’un bilan d’orientation prothétique, d’aucuns diront de ces confusions qu’il n’est pas absolument obligatoire de les noter, d’autant qu’avec l’usage certains phonèmes se sont regroupés du fait d’une similitude productive, mais il nous apparaît quand même, et malgré tout, très utile de bien référer la réponse du patient par rapport à l’émission originelle.
Cette similitude productive, entre un /a/ et un /a/ ou entre un /e/ et un /ε/, s’observe différemment selon les régions. Cette « neutralisation » se fait d’ailleurs en fonction de tel ou tel phonème, les Parisiens préférant classiquement le /a/ de notre premier exemple, alors que les gens du Nord utilisent plus facilement le /a/.
De toute façon, si l’on s’accorde une tolérance lors du bilan d’orientation prothétique, par contre, il est indispensable, au cours des divers contrôles d’efficacité prothétique et de la rééducation orthophonique, de noter, avec une rigueur extrême, les confusions résiduelles, fussent-elles rares et peu importantes, commises par le patient appareillé ou par l’implanté cochléaire.
Pour ce dernier motif d’ailleurs, il nous apparaît nécessaire qu’en cas d’accent particulier, de locution spécifique, de fatigue articulatoire, d’émission erronée du testeur, la réponse du patient, formulée impérativement en écholalie pour gommer a maxima la suppléance mentale, soit comparée à la véritable émission initiale, surtout si celle-ci a été particulièrement colorée spectralement.
Il faut en quelque sorte toujours comparer ce qui a été perçu à ce qui a été initialement, mais véritablement, émis.
Les tests d’audiométrie vocale, édités par le Collège National d’Audioprothèse, ont le grand intérêt de pouvoir servir de référentiel à tous les acteurs de l’audiologie.
Ainsi, pour nous qui avons à corriger le mieux possible la perception de la parole, il est nécessaire d’étudier tous les phonèmes de la langue française, fussent-ils pour certains proches au plan de leur fabrication au point d’être parfois assimilés.
3.2. Le fondamental laryngé
La fréquence fondamentale, souvent appelée F0 (lire « fzéro »), constitue une caractéristique très importante de nombreux signaux environnementaux comme les sons de parole.
Elle correspond à la fréquence de vibration (d’ouverture et de fermeture), tant sur le plan horizontal que vertical, des cordes vocales lors de la production des voyelles et des consonnes voisées, ce que les deux chapitres précédents ont parfaitement explicité.
On lit souvent : « Elle fournit l’énergie acoustique principale de la parole. » Nous verrons plus loin qu’il faut modérer ce propos.
Elle génère des variations prosodiques, c’est-à-dire de mélodie et d’intonation, qui contribuent à l’identification du sexe, de l’âge et de l’identité du locuteur, ainsi qu’à la signification du message prononcé.
Au téléphone, le simple mot « allô », constitué en phonétique de deux voyelles encadrant un /l/ dont nous dirons plus loin l’extrême ressemblance avec une voyelle, permet l’identification immédiate du locuteur.
Le fondamental laryngé se trouve dans un registre grave, différent selon les voix :
– homme : 80 à 250Hz, avec un fondamental usuel de la voix à 110Hz ;
– femme : 150 à 350Hz, avec un fondamental usuel de la voix à 220Hz ;
– enfant : 250Hz et plus.
Le fondamental laryngé peut être observé en représentation spectrale. Nous en avons bien l’habitude.
Mais auparavant, faisons quelques petits rappels d’acoustique…
Le premier rappel d’acoustique est nécessaire pour éviter de se tromper en discourant. Il reprend le 1er graphique de la 1re norme de 1965, Norme Française S 30–003, homologuée le 1er septembre 1965 (figure 3.1).
Figure 3.1 |
Les normes n’ont pas beaucoup varié depuis. La norme NF ISO 226 de février 2004 définit les lignes isosoniques normales (Indice de classement S 30–003). Il s’agit des lignes reliant les divers points d’égale sensation sonore. Cette norme internationale a été révisée en 2005 à cause d’une modification discrète de la norme ISO 389–7 de novembre 2005.
Actuellement la référence est la norme française NF EN ISO 389–7 de février 2006. Acoustique – Zéro de référence pour l’étalonnage d’équipements audiométriques. – Partie 7 : niveau liminaire de référence dans des conditions d’écoute en champ libre et en champ diffus (Indice de classement : S 30-007-7).
On raisonne en valeurs physiques et donc en décibels linéaires ou dB SPL (Sound Pressure Level) par rapport à un niveau de pression acoustique de 0dB, référence 2 × 10−5 Pascal.
La norme trace le seuil normal d’audition binauriculaire en champ libre. C’est statistiquement ce qu’entend un homme de 18 à 25 ans dans les conditions d’expérimentation.
On observe que les courbes isosoniques, c’est-à-dire les courbes d’égale sensation sonore, ont tendance à s’aplatir, dans les fréquences graves, au fur et à mesure que croît l’intensité.
Il est aussi intéressant d’observer la zone où l’homme possède une meilleure perception. Tout le monde de l’audiologie le sait : cette meilleure audition dans la zone 1500 à 5000Hz est due à la résonance de l’oreille externe. C’est-à-dire à la résonance combinée du pavillon, de la conque et du conduit auditif externe.
Dans cette zone, on peut aisément tracer le seuil normal d’audition binauriculaire en champ libre à l’emplacement qu’il aurait sans cette résonance de l’oreille externe (figure 3.1).
Dans ce champ auditif, la norme a précisé le seuil normal d’audition binauriculaire en champ libre (figure 3.2). Mais depuis les travaux de CAUSSÉ et CHAVASSE, on sait qu’il faut 3dB de plus au niveau du seuil auditif pour percevoir la même chose avec une seule oreille.
Figure 3.2 |
Le seuil normal d’audition monauriculaire en champ libre se situe donc parallèlement au seuil normal d’audition binauriculaire en champ libre mais avec un décalage de + 3dB.
Tout le monde est également d’accord pour dire que la courbe isosonique 120 phones correspond au Seuil Subjectif d’Inconfort monaural. Il s’agit de la limite haute du champ auditif, c’est-à-dire du niveau auquel on atteint le tout premier seuil de désagrément avant tout seuil intolérable ou, a fortiori, tout « seuil de douleur » comme encore malheureusement écrit parfois de façon erronée.
Comme il existe une sommation binauriculaire de la sonie de 6dB à partir de 40dB au-delà du seuil (CAUSSÉ et CHAVASSE), lorsque chaque oreille percevra, à 1000Hz, 120dB – 6dB, soit 114dB, les deux oreilles étant parfaitement équilibrées, on atteindra, par sommation, ce niveau de 120dB qui correspond, à cette fréquence, au niveau de 120 phones.
La même chose, bien évidemment, pour les autres fréquences, à 120 phones. Par définition, par exemple, 120 phones à la fréquence 100Hz correspondent à la même sensation sonore en intensité que 120dB à 1000Hz.
On peut tracer la médiane de ce champ auditif normal. Elle correspond assez bien à l’énergie des sons d’une parole d’intensité moyenne comme nous le verrons plus loin.
Il faut avoir l’habitude de passer du graphique physique en dB SPL, qui reflète la vérité des vérités, au graphique physiologique en dB HL (Hearing Level) (figure 3.3) en repérant bien le sens de croissance des intensités sur chacun de ces graphiques.
Figure 3.3 |
Ce n’est en effet pas très pratique de raisonner avec un seuil auditif binauriculaire différent selon les fréquences et auquel il faut ajouter 3dB pour correspondre à l’audition monaurale.
Alors autant dire : « Pour toutes les fréquences, 0dB est le niveau d’audition d’un sujet normal » et tracer le niveau d’audition physiologique (Hearing Level) d’un patient, oreille par oreille, sur ce graphique droit plutôt que sur le graphique gauche établi en dB SPL.
On pourrait, bien sûr, tout faire en dB SPL (figure 3.4) : le sujet normal est à gauche et le patient malentendant est à droite. Le seuil d’audition s’est élevé, le Seuil Subjectif d’Inconfort s’est abaissé (le patient atteint plus vite son inconfort dans les fréquences graves), sa Médiane Théorique de la Dynamique n’est plus située au niveau de celle de l’entendant.
Figure 3.4 |
On peut transposer ces graphiques en dB HL (figure 3.5). Le champ auditif normal est tracé à gauche : le seuil d’audition monaural est à 0dB HL pour toutes les fréquences ; le Seuil Subjectif d’Inconfort a été transposé et il se situe aux alentours de 110dB HL pour toutes les fréquences ; la Médiane de la Dynamique Statistique de l’Entendant est à 55 ± 2dB HL de 250 à 6000Hz.
Figure 3.5 |
Le patient est à droite : ses divers seuils et sa médiane ont été transposés en dB HL.
Cette première partie des rappels est très facile.
Le second rappel traite des unités à utiliser pour nos mesurages.
Pour faire de la mesure acoustique, on utilise classiquement un sonomètre et l’on prend une référence de pression acoustique (0dB réf. 2 × 10−5 Pascal) (figure 3.6).
Figure 3.6 |
L’on voit que pour commencer à entendre un son grave, il est nécessaire qu’il présente un niveau de pression acoustique assez élevé.
Par exemple, dans un câble, le courant électrique, qui a en Europe une fréquence de 50Hz, génère un bruit faible, via le mouvement des électrons, qui n’est pas audible par l’homme dont le seuil binauriculaire à cette fréquence est de 42dB SPL.
Par contre, un transformateur qui présente de la ronfle dans cette zone de fréquences peut donner matière à une perception sonore du fait de l’intensité plus élevée du bruit.
De la même façon, les sons très aigus nécessitent un niveau de pression acoustique assez élevé pour être audibles par l’homme.
Ainsi donc, les psycho-acousticiens ont observé la courbe isosonique 40 phones, qui relie tous les niveaux d’égale sensation sonore à 40dB à 1000Hz, et sa différence par rapport à 40dB SPL (figure 3.7).
Figure 3.7 |
Et ils ont proposé d’apporter une correction à la mesure en dB SPL, sensiblement égale à ce décalage, dans le but de s’approcher au mieux du niveau de la sensation.
La correction, apportée par la norme, n’est pas parfaitement exacte si l’on compare les valeurs de différences entre la courbe isosonique 40 phones et le niveau de pression 40dB SPL (réf. 2 × 10−5 Pascal) que nous avons notées sous le graphique de la norme (figure 3.7) aux valeurs normatives de correction de la courbe de pondération A par rapport aux valeurs SPL (tableau 3.8).
Fréquences (Hz) | Courbe A (dB) |
---|---|
10 | – 70,4 |
12,5 | – 63,4 |
16 | – 56,7 |
20 | – 50,5 |
25 | – 44,7 |
31,5 | – 39,4 |
40 | – 34,6 |
50 | – 30,2 |
63 | – 26,2 |
80 | – 22,5 |
100 | – 19,1 |
125 | – 16,1 |
160 | – 13,4 |
200 | – 10,9 |
250 | – 8,6 |
315 | – 6,6 |
400 | – 4,8 |
500 | – 3,2 |
630 | – 1,9 |
800 | – 0,8 |
1 000 | 0 |
1 250 | 0,6 |
1 600 | 1,0 |
2 000 | 1,2 |
2 500 | 1,3 |
3 150 | 1,2 |
4 000 | 1,0 |
5 000 | 0,5 |
6 300 | – 0,1 |
8 000 | – 1,1 |
10 000 | – 2,5 |
12 500 | – 4,3 |
16 000 | – 6,6 |
20 000 | – 9,3 |
Toutefois, le niveau mesuré en décibels pondérés A, que l’on écrit dB (A), donne une meilleure « approche » de notre perception sans accéder à une précision d’orfèvre.
De la même façon, ont été établies les courbes de pondération B et C à partir, respectivement, des courbes isosoniques 70 et 100 phones pour prendre en compte l’aplatissement des courbes isosoniques, et donc de la sensation, en fonction de l’accroissement de l’intensité (figures 3.8 et 3.9).
Figure 3.8 |
Figure 3.9 |
On devrait donc, suivant l’intensité du signal, s’exprimer en dB (A), puis en dB (B), et enfin en dB (C). Cette solution n’est pas très simple et l’on effectue beaucoup de mesurages en dB (A), quelle que soit l’intensité du signal.
Ainsi donc la courbe de pondération A présente l’avantage de nous donner une meilleure idée de nos perceptions physiologiques mais, d’une part, les corrections par rapport au vrai seuil physique ne sont pas parfaitement rigoureuses et d’autre part surtout, l’atténuation des fréquences graves, correspondant approximativement à des niveaux de pression acoustique faibles, devient excessive quand l’intensité du signal est forte ou très forte, eu égard à l’aplatissement des courbes isosoniques.
Pour être parfaitement clair, supposons la mesure, à l’aide d’un sonomètre en position linéaire, d’un bruit de fréquences comprises entre 125 et 4000Hz et d’un niveau de pression acoustique de 80dB, référence 2 × 10−5 Pascal. Le passage en pondération A fait effondrer les fréquences graves et majore légèrement la zone de 1000 à 4000Hz (figure 3.10).
Figure 3.10 |
Ainsi, vers 110Hz, fréquence moyenne du fondamental laryngé de l’homme, la pondération en dB (A) diminue de 17,9dB environ la valeur SPL, alors que la pondération en dB (B) ne la corrigerait que de 5dB environ (figure 3.8).
Vers 220Hz, fréquence moyenne du fondamental laryngé de la femme, la pondération en dB (A) diminue de 10dB environ la valeur SPL, alors que la pondération en dB (B) ne la corrigerait que de 2dB environ (figure 3.8).
Procéder à l’étude acoustique de la parole en dB pondérés (A) pouvant entraîner quelques critiques, la solution ne serait-elle pas de tout mesurer en dB pondérés (B) ?
La réponse est évidemment négative, puisque certains signaux de parole présentent une intensité très faible et que dans ces cas, les corrections apportées par la courbe de pondération (B) s’avèreraient insuffisantes.
Le dilemme doit toutefois être tranché. La vérité des vérités étant le dB physique (Sound Pressure Level), avec sa référence universelle du 0dB SPL correspondant à une pression acoustique référencée de 2 × 10−5 Pascal, il semblerait le plus logique d’effectuer toutes les mesures selon ce mode.
Cette solution pourrait être retenue. Mais elle exige une parfaite compétence en acoustique. En effet, le choix de cette solution nous obligerait à nous souvenir et à prendre en compte que notre seuil d’audition binauriculaire en champ libre nécessite, pour les sons les plus graves de la voix mais aussi pour les sons les plus aigus, un certain nombre de décibels pour commencer à être atteint ; et même à soustraire intellectuellement des mesures, les valeurs particulières, selon les fréquences, du seuil binauriculaire en champ libre pour ne pas confondre niveaux de pression acoustique et niveaux de perception.
Les fréquences limites de la parole se situent à 100 et 10 000Hz environ, avec des niveaux de pression acoustique, pour la voix moyenne, globalement centrés dans le champ auditif de l’entendant.
Or, à partir de la courbe isosonique 40 phones, les courbes isosoniques sont nettement plus plates que la courbe du seuil auditif. Elle sont même très plates de 300 à 2000Hz. Elles remontent un peu sous 300Hz et au-delà de 6000Hz. Elles restent plus basses de 2000 à 6000Hz à cause de la résonance de l’oreille externe.
Compte tenu de l’objet de nos mesurages, on peut validement effectuer les analyses phonétiques en dB (A) ; sous la réserve toutefois de bien se souvenir de ces quelques éléments fondamentaux qui différencient l’énergie générée de la sensation perçue, et sans oublier que la courbe de pondération A atténue excessivement les fréquences graves lorsque le niveau de pression acoustique est élevé.
Nous montrerons d’ailleurs plus loin le spectre comparé d’une voyelle tenue et analysée en dB (A) et en dB SPL.
Pour l’analyse des consonnes, notre discussion précédente est inopportune. En effet, d’une part, la plupart des consonnes présentent des intensités nettement plus faibles que les voyelles et elles correspondent donc bien à la plage optimale d’utilisation de la courbe de pondération A. D’autre part, sauf quand elles s’accompagnent de voisement, leurs plages fréquentielles se situent dans des zones où les corrections apportées par la pondération A sont infimes (tableau 3.8). Ainsi, analyser les consonnes en courbe de pondération A permet d’être parfaitement renseigné sur nos sensations auditives.
Par contre le spectre à long terme de la parole, dont nous parlerons aussi plus loin, doit s’analyser en dB physiques pour pouvoir être situé dans le graphique SPL du champ auditif humain.
Le troisième rappel concerne les mesures acoustiques elles-mêmes. Nous utiliserons le logiciel Spectra+, version 3.0 a de la société Pioneer Hill Software, développé avec la participation française de notre confrère G. CARDOT et de P.H. PERRET, ingénieur. D’autres logiciels existent et sont souvent téléchargeables sur Internet.
Grâce aux cartes son actuelles, nous pouvons bénéficier d’une fréquence d’échantillonnage de 200 000Hz. Et donc, et c’est le théorème de SHANON, avoir une validité de réponse jusqu’à la moitié de cette fréquence, soit jusqu’à 100 000Hz (figure 3.11).
Figure 3.11 |
Nous pouvons choisir une taille de la transformée de FOURIER (FFT : Fast Fourier Transform). Dans le cas de ce logiciel, de 32 à 16 384 échantillons (figure 3.12).
Figure 3.12 |
Si nous choisissons 32 échantillons dans le cas d’une fréquence d’échantillonnage de 200 000Hz, la résolution spectrale sera très mauvaise (ici 6250Hz), mais la résolution temporelle sera très fine (ici 0,16ms) (figure 3.13).
Figure 3.13 |
Par résolution temporelle, on entend la durée de la tranche de temps nécessaire pour calculer un spectre (T = 1/f, soit T = 1/6250). À noter qu’à 200 000Hz, l’écart entre deux échantillons est de 5μs (1/200 000).
On est toujours tenu à un compromis entre ces deux résolutions. Par exemple, en prenant l’inverse, soit 16 384 échantillons, la résolution spectrale atteint une valeur plus fine de 12,207Hz, mais la résolution temporelle est plus grossière (81,92ms) (figure 3.14).
Figure 3.14 |
Il faudra toujours tenir compte de ces deux éléments du compromis.
On pourra aussi, pour des signaux parfaitement stables, choisir une fréquence d’échantillonnage plus petite (100 000, 50 000Hz…) dans le but d’obtenir une résolution spectrale plus fine. Par exemple, une fréquence d’échantillonnage de 50 000Hz (quatre fois moindre que précédemment) et une taille de la FFT de 16 384 échantillons offre une résolution spectrale de 3,052Hz (quatre fois plus fine que précédemment) mais avec une résolution temporelle de 327,68ms (quatre fois plus élevée que précédemment) (figure 3.15).
Figure 3.15 |
Heureusement, ce signal enregistré que nous avons échantillonné peut être sous-échantillonné. En quelque sorte, il peut être « remouliné » par le calculateur.
Dans l’avant dernier exemple, présentéfigure 3.14, si nous passons à 2 le taux de sous-échantillonnage, la résolution spectrale est divisée par deux et donc améliorée, car elle passe à 6,104Hz.
Mais, ipso facto, alors que l’analyse était valide jusqu’à 100 000Hz, elle ne l’est plus que jusqu’à 50 000Hz (figure 3.16).
Figure 3.16 |
Un taux de sous-échantillonnage de 3 fait passer la résolution spectrale à 4,069Hz mais réduit la fréquence limite, c’est-à-dire la validité de la mesure, à 33 333Hz (figure 3.17).
Figure 3.17 |
Un taux de sous-échantillonnage de 4 fait passer la résolution spectrale à 3,052Hz, mais réduit la fréquence limite à 25 000Hz (figure 3.18).
Figure 3.18 |
Doublant ce dernier taux de sous-échantillonnage pour le porter à 8, nous divisons tout par deux : la résolution spectrale passe à 1,526Hz, mais la fréquence limite chute à 12 500Hz (figure 3.19).
Figure 3.19 |
On s’aperçoit donc qu’il faut être très attentif à ne pas commettre d’erreurs dans les choix de paramétrages du calcul quand on procède à des mesures acoustiques.
Ce qui est éminemment possible est d’enregistrer le signal pour le retravailler ensuite en temps différé (figure 3.20).
Figure 3.20 |
Nous avions précédemment dans nos exemples une résolution temporelle de 81,92ms. En temps différé, si nous décidons d’un taux de recouvrement de la FFT de 0 %, la résolution temporelle reste évidemment à cette même valeur de 81,92ms (figure 3.21). Par taux de recouvrement de la FFT, on entend le décalage en pourcentage de deux tranches de temps successives.
Figure 3.21 |
Cette possibilité très puissante permet de dilater l’axe des temps en recalculant des portions d’échantillons.
Le paramétrage détermine le pourcentage de points du bloc FFT réutilisé pour le calcul suivant. Un fort taux de recouvrement (supérieur à 90 %) et une petite taille de bloc FFT fournit la plus haute résolution mais demande le plus long temps de calcul. Cette possibilité n’est envisageable qu’en mode « Temps Différé ».
En prenant donc l’excès inverse, c’est-à-dire 99 % de taux de recouvrement de la FFT, la résolution temporelle devient extrêmement fine, à 0,82ms (figure 3.22).
Figure 3.22 |
3.2.1. Observation du fondamental laryngé
Comme nous l’avons dit avant ces quelques rappels d’acoustique, le fondamental laryngé peut être facilement observé en présentation spectrale.
Nous utilisons un microphone SONY ECM-909 A bien adapté à l’enregistrement de signaux de parole que nous effectuerons dans une pièce à vivre (salle à manger calme) avec un seul locuteur.
Le calibrage est réalisé à l’aide d’une source étalon Brüel et Kjaer, type 4230, délivrant un signal de 1 000Hz à 94dB SPL.
Mettons-nous en mode d’enregistrement.
Choisissons comme vue le spectre, en courbe de pondération A.
Pour une fréquence d’échantillonnage de 100 000Hz, un taux de sous-échantillonnage de 1, et une taille de FFT de 16 384 échantillons, les paramétrages du calcul donnent une résolution spectrale de 6,104Hz.
La fréquence limite est très élevée (50 000Hz).
La résolution temporelle est de 163,84ms, ce qui est correct puisque nous allons émettre un signal tenu et stable de voyelle.
À l’écran, la plage de fréquences observable s’étend de 50 à 10 000Hz, selon une échelle logarithmique de fréquences et la plage des intensités s’étend de 0 à 100dB pleine échelle.
Demandons à un même locuteur masculin d’émettre les groupes des voyelles :
– /u/, /y/, /i/ ;
– /o/, /ø/, /e/ ;
– /⊃/, /ə/, /œ/, /ε/ ;
– /a/, /a/ ;
– /õ/, /ã/, //, //.
Le son le plus grave de la voix prononcée, et que l’on appelle le fondamental laryngé, est toujours, pour ce même locuteur, à la même fréquence, bien stable.
Sur l’échelle logarithmique de fréquences, le fondamental laryngé de la voix masculine émettant le phonème /u/ semble occuper une plage fréquentielle large (figure 3.23).
Figure 3.23 |
En réalité, c’est plutôt cette échelle logarithmique de fréquences qui perturbe la vision.
En effet, en acoustique, l’échelle des fréquences est classiquement logarithmique. C’est-à-dire que la distance sur l’échelle est la même pour passer d’une fréquence à son double (exemple de 50 à 100Hz, de 1000 à 2000Hz, de 10 000 à 20 000Hz).
Dans ce cas, on valorise les fréquences graves et moyennes par rapport aux fréquences aiguës et aux hautes fréquences.
L’échelle des fréquences peut être linéaire (cas de certains matériels de métrologie ou de représentation graphique). Dans ce cas, la distance sur l’échelle est la même pour une plage donnée de fréquences (exemple 100Hz, quelle que soit la zone fréquentielle de ces 100Hz).
Modifions donc, pour l’affichage de notre enregistrement du phonème /u/, l’échelle des fréquences de logarithmique à linéaire (figure 3.24).
Figure 3.24 |
Dans ce cas d’une échelle linéaire de fréquences, cet empâtement des fréquences graves disparaît et l’on observe que le fondamental laryngé présente évidemment la largeur fréquentielle définie par la résolution spectrale choisie, comme chacune des autres raies spectrales des voyelles, ce dont nous parlerons plus loin.
Refaisons la même manipulation avec les phonèmes /o/ et /e/ en réduisant sévèrement, de 100 à 200Hz, la plage de fréquences observables. Ainsi nous serons moins perturbés par l’apparition de signaux plus aigus que le fondamental laryngé.
On observe toujours la même stabilité fréquentielle du fondamental laryngé du locuteur, quelle que soit la voyelle prononcée.
Dans les figures 3.25 et 3.26, sur une échelle logarithmique de fréquences, avec une plage de fréquences limitée entre 100 et 200Hz, apparaît le fondamental laryngé de la voix du même locuteur masculin émettant un /o/ puis un /e/.
Figure 3.25 |
Figure 3.26 |
À noter que l’empâtement signalé plus haut est encore plus marqué compte tenu de la petite plage fréquentielle située dans les fréquences graves.
Si l’on fait prononcer ces groupes de voyelles tenues par un locuteur masculin puis par un locuteur féminin, on constate l’élévation fréquentielle du fondamental laryngé de la voix de femme mais avec la même stabilité fréquentielle pour une même voix féminine, quel que soit le phonème prononcé.
Les intensités respectives des deux fondamentaux laryngés de la voix masculine émettant un /o/ puis un /e/ en voix moyenne, observables sur les figures 3.25 et 3.26, sont tout à fait identiques. Cette remarque est importante, car elle renforce le caractère de similitude du F0 dans le cas d’une même voix prononçant dans un flux vocal régulier des voyelles différentes.
Cette fois, toujours sur une échelle logarithmique de fréquences, choisissons une plage fréquentielle de 100 à 500Hz.
Faisons émettre, à un même sujet masculin, un /o/ normal et un /o/ d’étonnement (figures 3.27 et 3.28).
Figure 3.27 |
Figure 3.28 |
Puis un /a/ classique, en aperture maximale, et un /a/ de frayeur (figures 3.29 et 3.30).
Figure 3.29 |
Figure 3.30 |
Dans ces deux cas, à la différence de la stabilité fréquentielle du fondamental laryngé de la même voix prononçant des voyelles diverses, la fréquence du fondamental laryngé a varié de façon très significative, compte tenu d’une intonation différente lors de la production de voyelles identiques.
Dans ces situations d’émission, la voix d’homme et la voix de femme présentent chacune ces variations de hauteur du fondamental laryngé.
Dans ces deux cas, la similitude énergétique a également disparu entre les deux F0.
Dans le /o/ d’étonnement, la différence est de l’ordre de + 20dB par rapport au /o/ normal. Comme nous sommes en pondération A, le correctif par rapport à la valeur en dB SPL est, selon les valeurs données au tableau 3.8, de l’ordre de 5dB supplémentaires pour le F0 le plus grave (environ 160Hz : −13dB) par rapport au F0 le plus aigu (environ 280Hz : −8dB). Ce qui signifie que, dans le cas de cette voix, le F0 du /o/ d’étonnement présente une intensité de 15dB supérieure à l’intensité de son homologue dans le cas d’un /o/ normal.
Dans le /a/ de frayeur, la différence est de l’ordre de + 10dB par rapport au /a/ normal. Les fréquences des F0 étant identiques à celles de l’exemple précédent, le différentiel des correctifs dB Lin – dB (A) reste à 5dB. Ce qui signifie que, dans le cas de cette voix, le F0 du /a/ de frayeur présente une intensité de 5dB supérieure à l’intensité de son homologue dans le cas d’un /a/ normal.
En élargissant encore la plage fréquentielle d’observation, on peut constater, pour une voix chantée d’homme ou de femme, le glissement fréquentiel du fondamental laryngé, qui montre le déplacement vers les fréquences graves et aiguës du son le plus grave de la voix.
On peut remarquer le déplacement maximal obtenu lorsque le chanteur émet la voyelle tenue de l’extrême grave possible à l’extrême aigu possible. Ce déplacement maximal correspond à la tessiture de la voix. Nous verrons plus loin, lors de l’étude des voyelles, ce glissement fréquentiel (Figure 3.47, Figure 3.48 and Figure 3.49).
Le fondamental laryngé peut donc être facilement observé en représentation spectrale. C’est la représentation la plus simple, la plus courante et donc la plus connue. C’est celle dont nous avons le plus l’habitude.
Mais le fondamental laryngé doit surtout être observé en représentation temporelle.
En effet, le fondamental laryngé, stable au plan fréquentiel comme dans l’émission d’une voyelle tenue, ou glissant vers les graves et les aigus comme dans le chant, correspond à des variations de la périodicité. À ces éventuelles variations de la périodicité s’ajoutent d’ailleurs d’éventuelles variations de l’amplitude dans le temps.
Par le calcul (f = 1/T), cette périodicité est transformée en fréquence, dont nous avons grande habitude, mais avec une transformation qui nous éloigne de la vérité, ce que nous allons voir avec les voyelles.
3.3. Les voyelles
La catégorisation des phonèmes en deux catégories de voyelles et de consonnes est d’origine grecque. Notre mot « voyelle » vient du latin « vocalis » (vocal), lui même venant de « vox » (voix), décalqué du grec « phônêénta » (voisées).
Il faut les imaginer comme des bouffées d’air (des poufs) cadencées par le rythme de l’ouverture et de la fermeture des cordes vocales.
Si vous avez lu les albums de Lucky Luke, vous savez ce que sont les voyelles. Dans Lucky Luke, les Indiens, pour se passer des messages de montagne en montagne, allument des feux de feuilles sèches, sur lesquels, à deux, ils tendent une couverture. Ils dégagent cette couverture de temps en temps, pour laisser passer des poufs de fumée à un rythme signifiant pour les Indiens sur l’autre montagne. Et bien, c’est exactement cela les voyelles. En fait, les indiens font des voyelles !
Quand on regarde les bouffées d’air rythmées par les mouvements du larynx, on peut constater « le train des impulsions acoustiques » comme on voit le train de ces bouffées de fumée au-dessus des feux d’Indiens.
LEFÈVRE utilise même le terme « d’explosions acoustiques ».
Si l’on regarde la définition que donne le dictionnaire du mot « pouf », il s’agit de l’expression du bruit d’une chute, d’une explosion.
3.3.1. Les formants
Les voyelles sont caractérisées par des zones fréquentielles de renforcement des impulsions laryngées, appelées formants.
Lors de l’émission d’une voyelle, le flux laryngé, composé de ces poufs d’air qui sortent un grand nombre de fois par seconde de la barrière constituée par les cordes vocales, est coloré spectralement. Les zones les plus colorées portent le nom de formants.
Nous allons donc montrer que le comportement des « cordes vocales » est différent de celui des cordes vibrantes dont la théorie montre qu’elles émettent un spectre d’harmoniques dont l’amplitude décroît en fonction de la fréquence (plus précisément en fonction de 1/f), ces harmoniques pouvant être amplifiées par les résonances des instruments de musique.
La composition formantique est indépendante de la hauteur du son fondamental. Ainsi, que l’on soit un homme, une femme ou un enfant, on prononce les mêmes voyelles.
Ces impulsions laryngées sont donc renforcées par les résonateurs supralaryngés :
– le pharynx est le modeleur du 1er formant ;
– la bouche, avec le palais, les joues, la langue, les lèvres, les mâchoires et, à partir d’un certain âge, les dents, est le modeleur du 2e formant. Il faut noter que certaines parties de ce modeleur du 2e formant ont également, au plan acoustique, un effet d’absorption, comme l’intérieur des joues, la langue et la partie molle du palais à l’arrière (palais mou). Sans oublier que la salive participe aux modifications spectrales du pouf laryngé et que son absence, ou pour le moins sa faible quantité (bouche sèche), modifie grandement le timbre de la voix.
Ces résonateurs supralaryngés sont des cavités remplies d’air qui peuvent être modifiées en volume et en grandeur d’ouverture. Ils agissent par couplage et non pas comme deux résonateurs séparés.
Ils permettent ainsi de renforcer diverses zones du spectre initial du son laryngien.
– 1er formant (F1) : sa zone formantique se situe entre 250 et 750Hz environ, la limite étant parfois placée à 800Hz par certains auteurs.
– 2e formant (F2) : sa zone formantique se situe entre 750 et 2500Hz. C’est surtout ce 2e formant qui est nécessaire à l’identification de la voyelle.
– 3e formant (F3) et autres formants appelés aussi formants supérieurs : le 3e formant est attribué à la cavité labiodentale. Il est beaucoup moins caractéristique de la voyelle que le 1er et le 2e, car sa hauteur fréquentielle varie peu pour la majorité des voyelles.
Les formants supérieurs ont une importance moindre. Ils participent à la coloration du timbre propre à chaque voix.
Nasalité des voyelles :
– les impulsions laryngées peuvent être renforcées, par exemple quand on prononce un // ou un /ã/, par le résonateur nasal (12cm et 60 cm3 environ pour un adulte) ;
– la nasalité des voyelles est marquée par la faible énergie du 1er formant et la présence de formants de nasalité : FN1 à 250Hz, FN2 à 1000Hz, FN3 à 2000Hz (DELATTRE).
3.3.2. Le triangle vocalique
On a coutume de préciser la fréquence du 1er et du 2e formant des voyelles dans le schéma du triangle vocalique proposé en 1781 par HELLWAG (figure 3.31).
Figure 3.31 |
Mais il faut toujours faire la liaison entre l’acoustique et l’articulatoire (figure 3.32).
Figure 3.32 |
L’indication de l’ouverture ou de la fermeture est donnée depuis l’aperture maximale jusqu’à la quasi-fermeture. De la même façon est précisée l’antériorité ou la postériorité articulatoire avec la concordance au niveau acoustique. Ce comparatif articulation-acoustique ayant été parfaitement développé au chapitre I, nous n’y reviendrons pas.
DELATTRE a procédé à une classification acoustique des voyelles orales et des voyelles nasales du français avec les deux formants F1 et F2, en précisant les voyelles orales, les voyelles labialisées et les voyelles nasales (figure 3.33).
Figure 3.33 |
DELATTRE a également fourni, pour des locuteurs masculins dont le fondamental laryngé moyen se situe à 120Hz, les diverses fréquences des formants (tableau 3.9).
Phonèmes | ou | u | i | o | eu | é | o | eu | è | â | a | on | an | un | in |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Symboles | u | y | i | o | ø | e | ⊃ | œ | ε | a | a | ã | |||
F1 | 250 | 250 | 250 | 375 | 375 | 375 | 550 | 550 | 550 | 750 | 750 | 600 | 600 | 600 | 600 |
F2 | 750 | 1800 | 2500 | 750 | 1600 | 2200 | 950 | 1400 | 1800 | 1200 | 1350 | 750 | 950 | 1350 | 1750 |
On observe que, dans chaque groupe de voyelles, le F1 est à la même fréquence alors que le F2 présente une fréquence spécifique par voyelle.
Dans la littérature, et en particulier dans Éléments de phonétique de LANDERCY et RENARD ou dans Une introduction à la phonétique de MUNOT et NÈVE, on note des zones fréquentielles parfois différentes mais relativement proches.
Dans leur ouvrage publié en 1977, LANDERCY et RENARD ont précisé les « fréquences normalisées des trois premiers formants des voyelles orales française » (tableau 3.10).
Phonèmes | ou | u | i | o | eu | é | o | eu | è | â | a |
---|---|---|---|---|---|---|---|---|---|---|---|
Symboles | u | y | i | o | ø | e | ⊃ | œ | Є | a | a |
F1 | 250 | 250 | 250 | 350 | 350 | 350 | 500 | 500 | 500 | 800 | 750 |
F2 | 800 | 1800 | 2300 | 900 | 1600 | 2200 | 1000 | 1500 | 2000 | 1200 | 1300 |
F3 | 2200 | 2300 | 3200 | 2500 | 2250 | 2750 | 2500 | 2500 | 2750 | 2400 | 2300 |
On a donc coutume de préciser la fréquence des 1er, 2e et même 3e formants des voyelles. Mais c’est bien plutôt de « champs fréquentiels » dont il faut parler. Ce terme est plus logique, compte tenu des variabilités intra-individuelles et a fortiori interindividuelles, mais aussi et surtout compte tenu de la plage que couvre un formant en terme de fréquences.
Il ne faut jamais oublier que les fréquences des divers formants des voyelles, rapportées par des auteurs ou des groupes d’auteurs, ne sont que des moyennes établies à l’issue de nombreuses analyses sur des cohortes importantes de sujets. Nous verrons nous-mêmes, en observant quelques voyelles émises par quelques sujets, les différences que présente chacun de ces sujets avec les moyennes proposées.
3.3.3. Observation de voyelles
Observons un /a/.
Enregistrons dans un fichier son (.wav), une voyelle tenue /a/ émise par un locuteur masculin, parfaitement rompu à l’audiométrie vocale.
À la différence de ce qui a été réalisé pour les voyelles précédentes, notre enregistrement a été effectué dans une cabine insonore dont les caractéristiques essentielles sont les suivantes :
– surface = 19,2 m2 ;
– volume = 39,3 m3 ;
– temps de réverbération = 0,22s.
Le temps de réverbération est, par définition, le temps que met un signal brutalement interrompu pour décroître de 60dB.
Ce temps de réverbération de 0,22s correspond à la moyenne des valeurs des temps de réverbération, mesurés par 1/3 d’octave, à l’aide du sonomètre intégrateur cité immédiatement après, dans la bande de fréquences comprise entre 100Hz et 5000Hz.
Nous avons utilisé un sonomètre intégrateur, Brüel et Kjaer, de classe 1, type 2250, équipé d’un microphone Brüel et Kjaer, type 4189 et d’un préamplificateur de microphone Brüel et Kjaer, type ZC 0032.
La sensibilité du microphone Brüel et Kjaer, type 4189, est de 51,5 millivolts par Pascal.
Le microphone est doté d’une boule antivent.
Le calibrage a été réalisé par un calibrateur acoustique Brüel et Kjaer, de classe 1, type 4231, délivrant un signal de 1 000Hz à 94dB SPL.
Le sonomètre est relié à l’entrée microphone d’un ordinateur, équipé d’une carte son de fréquence d’échantillonnage de 200 000Hz et de précision de l’échantillon de 16 bits.
Le sonomètre a toujours été positionné sur le réglage « linéaire », pour enregistrer le signal brut.
Une pondération n’a éventuellement été utilisée que sur un fichier .wav enregistré.
L’avantage du sonomètre intégrateur de dernière génération utilisé pour notre enregistrement réside dans la parfaite qualité de sa courbe de réponse (± 0,15dB de 8,5Hz à 22kHz) et dans l’étendue de sa dynamique (120dB).
Pour aider le locuteur, un sonomètre Brüel et Kjaer, de classe 1, type 2218, équipé d’un microphone Brüel et Kjaer, type 4165, doté d’une boule antivent, est placé dans son champ de vision à un mètre de sa bouche.
Le calibrage a été réalisé à l’aide d’une source étalon Brüel et Kjaer, type 4230, délivrant un signal de 1 000Hz à 94dB SPL.
La distance locuteur-microphone est d’un mètre.
Préalablement à nos enregistrements, nous avons analysé le niveau de bruit de fond de la cabine insonore (figure 3.34). L’échelle des fréquences est logarithmique, de 20Hz à 20kHz, et l’échelle des amplitudes est en dB SPL. On peut constater, sur le spectre relevé en moyennage infini, le très faible niveau du bruit de fond.
Figure 3.34 |
Pour les fréquences moyennes (à partir de 500Hz) et pour les hautes fréquences, le niveau de bruit de fond mesuré dans la cabine insonore correspond au minimum mesurable par le sonomètre. Le seul bruit de fond de la cabine se situe dans les basses fréquences (entre 20 et 400Hz). Le niveau mesuré de 36dB SPL à 31Hz qui correspond à des vibrations du bâtiment est inaudible par l’homme dont le seuil binauriculaire, à cette fréquence, est de 57dB SPL (figure 3.1).
Une autre mesure a été effectuée : celle du LAeq (niveau de pression équivalent) qui correspond, en dB (A), au niveau de pression acoustique que l’on aurait obtenu en l’absence de toutes les infimes fluctuations du bruit de fond en fonction du temps. Le niveau de pression équivalent LAeq était de 17,2dB (A), très proche des 16,7dB (A) mesurable a minima par le sonomètre.
Par rapport au bruit de fond de la cabine insonore, toutes les émissions de parties ou de totalité de phonèmes, de logatomes, de mots ou de phrases émergent significativement. De plus, tous les signaux émis seront de fréquences supérieures à 100Hz.
Une analyse de la distorsion a été menée. Le signal issu du calibrateur acoustique Brüel et Kjaer, de classe 1, type 4231, cité plus haut, (1000Hz à 94dB SPL) et injecté dans le sonomètre a été stocké en fichier.wav dans la carte mémoire du sonomètre puis analysé au niveau de sa distorsion harmonique. Elle est éminemment faible en taux, quel que soit le rang de l’harmonique (0,25 % pour la 2e harmonique et 0,1 % pour la 3e harmonique), de même qu’en distorsion harmonique totale.
Ce même signal a été ensuite enregistré dans un fichier .wav de la carte son, via le sonomètre utilisé comme microphone et préamplificateur. Nous avons été très attentifs au réglage informatique de sensibilité du microphone afin de ne pas majorer cette si minime distorsion. Au contraire, sonomètre seul. Ainsi, par rapport aux deux valeurs citées plus haut, la distorsion harmonique ne s’élevait qu’à 0,04 % pour la 2e harmonique et 0,0044 % pour la 3e harmonique.
Deux ultimes contrôles ont été menés. Le premier a consisté en la vérification de l’absence de modification de la courbe amplitude/fréquence par la carte son de l’ordinateur. Un spectre enregistré sur le seul sonomètre ou sur la carte son (via des fichiers.wav distincts comme précédemment) a été comparé sur ces deux enregistrements. La carte son n’a pas modifié la courbe amplitude/fréquence du signal original (bruit blanc).
Enfin, les variations de pression acoustique d’un signal donné se sont retrouvées à l’identique après enregistrement sur la carte son de l’ordinateur, ce qui confirme l’absence totale de toute compression du signal enregistré.
Compte tenu du fait que la voyelle tenue /a/ constitue un signal stable durant plusieurs centaines de millisecondes, nous avons privilégié, pour une fréquence d’échantillonnage de 200 000Hz, une résolution spectrale fine (3,052Hz) et une résolution temporelle de 81,92ms.
Nous allons pouvoir observer le signal enregistré en temps différé, c’est-à-dire que nous allons pouvoir passer du temps à le regarder. Nous choisirons par exemple un taux de recouvrement de la FFT de 97 % qui offrira une résolution temporelle de 2,46ms (figure 3.35).
Figure 3.35 |
Cette fois, nous choisissons une vue d’échantillons, soit une représentation en base temps, en échelle de pression, convertie en tension. Pour ce faire, nous modifions le fichier de calibration qui passe de dB SPL à millivolts.
Le signal a duré 597ms au total. On observe parfaitement que, partant du bruit de fond, il a mis un certain temps à être parfaitement installé, et qu’il a mis également un certain temps pour s’éteindre (figure 3.36).
Figure 3.36 |
À noter que tous les signaux en base temps qui seront présentés sont des signaux « bruts », directement issus de l’enregistrement initial en position linéaire, et non pas des signaux affectés par la pondération A.
Pendant la partie stable du signal, on peut, pour permettre une observation plus fine, effectuer des zooms avant (figures 3.37 et 3.38).
Figure 3.37 |
Figure 3.38 |
On observe une réitération régulière d’un signal composé. Il s’agit des poufs laryngés, chacun ayant été renforcé par les résonateurs et ayant bénéficié des absorptions citées plus haut.
C’est un signal périodique complexe dont on peut dire, en zoomant davantage (figure 3.39), que d’une particularité du signal à la même particularité qui se reproduit ensuite, c’est-à-dire d’un moment donné d’un pouf laryngé au même moment donné du pouf laryngé suivant, on note, dans notre exemple, pour la voyelle enregistrée, une durée de 0,007439 seconde ou 7,439 millièmes de seconde.
Figure 3.39 |
Dans notre exemple, pour aider à la lisibilité, nous avons pris comme « moment donné » de chaque pouf la valeur instantanée maximale. À tort, on pourrait imaginer que cette valeur maximale est causée principalement par le fondamental laryngé dont on observe ici la fréquence de 134Hz. En réalité, nous verrons plus loin que, si la fréquence de répétition du phénomène est bien celle du fondamental laryngé, son énergie est principalement due au 1er formant.
Dans une vue zoomée d’échantillons relevés en base temps, la portion du pouf laryngé qui apparaît comme la plus forte en pression ne correspond pas au début chronologique du pouf mais à un « accident » particulier de renforcement des résonateurs supralaryngés.
Nous avons demandé au même locuteur masculin d’émettre les trois phonèmes /i/, /u/ et /a/ avec la même intensité de voix moyenne, en les espaçant d’environ 1/2 seconde chacun. Pendant les phases stables de ces trois voyelles, nous avons mesuré, sur un graphique en base temps expansé, le temps qui sépare le début de quatre poufs laryngés successifs, choisis aléatoirement, du pic maximal de résonance correspondant au 1er formant.
Les valeurs obtenues sont de 0,001536, 0,001568, 0,001536, 0,001504s pour le /i/ (moyenne = 0,001536s) ; 0,001320, 0,001297, 0,001296, 0,001320s pour le /u/ (moyenne = 0,001308s) ; 0,001365, 0,001323, 0,001366, 0,001408s pour le /a/ (moyenne = 0,001365s).
C’est le temps qu’il a fallu au paquet d’air sortant du larynx pour atteindre la zone du pharynx qui est le modeleur du 1er formant.
Les différences de temps sont logiques compte tenu des dimensions de la cavité laryngée (pharynx) par rapport à la cavité buccale.
En effet, pour produire le /i/, la langue est en avant, la cavité buccale est réduite et la cavité laryngée est grande, ce qui explique le temps plus long.
Pour produire le /u/, la situation est inverse : la langue est en arrière, la cavité buccale est grande et la cavité laryngée est réduite. Le temps est le plus court.
Enfin, lors de la production du /a/, la langue est au milieu et les deux cavités sont sensiblement égales, ce qui entraîne un temps intermédiaire par rapport à celui des deux autres phonèmes.
En se basant sur les valeurs moyennes calculées sur quatre poufs laryngés successifs, le temps nécessaire pour passer de la barrière des cordes vocales au lieu de renforcement du 1er formant dans le cas du /u/ est allongé de 4,35 % pour le /a/ et de 17,43 % pour le /i/.
Nous reviendrons plus loin sur la variabilité de ces diverses durées observées dans le cas de ces trois phonèmes.
Bien évidemment, en appliquant la formule qui permet de passer de la période à son inverse, la fréquence, on peut calculer, dans le cas de la figure 3.39, que :
Mais, en réalité, on se trouve ici dans une périodicité des poufs laryngés qui se reproduisent tous les 7,439 millièmes de seconde.
Il ne s’agit évidemment pas d’un signal sinusoïdal mais bien d’un signal périodique complexe ou signal composé périodique.
Partant de rien, c’est-à-dire du silence, mais en réalité émergeant du bruit de fond du lieu de production, il s’est tout d’abord mis en place, ce qui signifie qu’il a débuté par une phase d’établissement, appelé transitoire d’attaque, qui a duré 108ms dans ce cas particulier (figure 3.40).
Figure 3.40 |
Il a ensuite été stable pendant une durée de 328ms. Il s’agissait de la phase caractéristique de ce phonème /a/ tenu. C’est cette phase caractéristique qui permet de l’étudier avec précision et d’en définir la durée.
Il s’est achevé par une phase d’amortissement, appelé transitoire de fin ou d’extinction, qui a duré 112ms. À l’issue de celui-ci, on a rejoint le bruit de fond du lieu de production.
Lorsqu’il est établi de façon stable, ce flux laryngé organisé en une réitération de poufs laryngés identiques, eux-mêmes constitués par des paquets d’air franchissant la barrière des cordes vocales, est renforcé, c’est-à-dire majoré, en partie, par les résonateurs pharyngés et buccaux, mais aussi absorbé, en partie, par des tissus mous comme la partie molle du palais, la langue et l’intérieur des joues.
En outre, l’onde incidente initiale a rencontré des parties dures comme certaines zones du palais (le palais dur) et les dents de sorte qu’une onde réfléchie s’est produite.
Ces conditions de parties vivantes expliquent qu’il existe pendant cette phase dite de stabilité de légères fluctuations d’intensité dans le temps par rapport à une valeur d’énergie moyenne. Ces variations énergétiques apparaissent parfaitement sur le graphique en base temps des échantillons (figure 3.40).
Ainsi, au lieu d’observer un joli signal sinusoïdal de période 0,007439s, soit de fréquence 134,42Hz (arrondi à 134,5Hz), on découvre, pendant la durée de chaque période, les « accidents » liés au renforcements, aux absorptions et aux réflexions, ce qui conduit à un signal périodique complexe ; chacun des « accidents » de renforcement, d’absorption et de réflexion apparaissant pour chaque pouf laryngé à un temps toujours identique par rapport au début chronologique de chaque pouf (figure 3.39).
Cette régularité temporelle est facile à comprendre puisque l’ensemble des composants du pharynx et de la bouche se trouve dans une position figée pendant toute la production de cette voyelle tenue. La célérité de l’air issu des poumons étant stable pendant la production de la partie stable de la voyelle, les décalages temporels entre les divers accidents sont parfaitement réguliers.
La régularité des renforcements énergétiques ainsi que des absorptions est également facile à comprendre puisque, pour une émission de voyelle tenue stable, les diverses tensions musculaires dans la zone de production de l’onde acoustique sont elles aussi parfaitement stables.
Nous apporterons plus loin un léger bémol à cette belle affirmation de régularité temporelle parfaite.
En zoomant davantage (figure 3.41), pour n’observer à l’écran qu’un seul pouf laryngé, on retrouve facilement une douzaine de pics importants de résonance et une multitude de plus petites résonances. On note également de nombreuses absorptions. Surtout, est bien visible cette périodicité des incidents liés aux résonances et aux absorptions.
Figure 3.41 |
On peut parfaitement, à partir de la genèse du pouf, décortiquer la temporalité des accidents successifs, en mesurant les temps respectifs auxquels apparaît chacun des accidents de renforcement, d’absorption ou de réflexion.
On peut également repérer les écarts temporels entre chacun de ces accidents.
En d’autres termes, 134,5 fois par seconde, soit chaque 0,007439s, est sorti du larynx du locuteur un pouf laryngé, une explosion, un paquet de bruit qui a été mis en forme par le pharynx et la bouche du locuteur jusqu’à ce que le microphone le recueille et qui possède cette composition dans le cas particulier d’un /a/.
Toute cette temporalité peut être, par le calculateur, transformée en fréquences. Mais il ne faut pas oublier qu’il ne s’agit que de temps, transposé dans un autre mode de présentation facile à appréhender par tous.
L’observation du spectre du /a/ (figure 3.42) montre parfaitement les zones où le niveau de pression acoustique en décibel est plus élevé : ceci correspond aux « accidents » de renforcement des résonateurs que nous avons observés dans la vue des échantillons, c’est-à-dire dans le graphique des pressions en fonction du temps.
Figure 3.42 |
L’observation permet de la même manière de repérer les « accidents » d’absorption ou de réflexion qui correspondent à des niveaux de pression acoustique plus faibles, et donc à des niveaux de pression en fonction du temps moins élevés.
Le spectre transforme, de façon aisée à observer, le graphique des variations des pressions en fonction du temps qui reste, quant à lui, le reflet de la vérité des vérités.
DELATTRE avait parlé d’« un accord de bandes de fréquences composées d’harmoniques ».
La répartition énergétique des « partiels » n’est pas régulière. En effet, on peut observer les zones de renforcement de certaines harmoniques. Ces zones possèdent une certaine largeur spectrale, liée au nombre des harmoniques de chaque renforcement, ce qui justifie pleinement le terme de champ fréquentiel qu’il convient d’attribuer aux formants.
En réalité, c’est parce que le même formant se caractérise souvent par deux, voire trois harmoniques du F0 que l’on parle de champ fréquentiel.
Une grave erreur serait d’imaginer une zone de bruit sur l’étendue de ce champ fréquentiel, d’autant que par définition un bruit correspond à un signal apériodique !
On lit aussi encore dans la littérature que les « partiels » ont « une amplitude inférieure à celle du fondamental ». Cette affirmation est erronée comme en témoigne le spectre de la figure 3.42 et de nombreux autres que nous découvrirons au fil des pages.
L’observation du spectre du /a/, sur l’échelle logarithmique de fréquences (100–12 000Hz) de la figure 3.42 et sur une échelle linéaire de fréquences, volontairement limitée à une plage 0–4000Hz (figure 3.43), conforte bien qu’il s’agit d’un signal composé périodique. Dans les deux cas, l’échelle des intensités s’étend de −30dB à 80dB pleine échelle.
Figure 3.43 |
L’échelle linéaire de fréquences de la figure 3.43, qui n’empâte pas les fréquences graves, nous aide beaucoup pour identifier les divers champs fréquentiels des quatre premiers formants dont la prépondérance énergétique est forte par rapport à toutes les zones de renforcement.
Le fondamental laryngé F0 se situe bien à 134,5Hz et les diverses autres fréquences sont des harmoniques de rang plus ou moins élevé de la fréquence fondamentale. Aucune raie n’apparaît à une fréquence qui ne soit pas un multiple du F0.
On remarque, grâce à la fine résolution temporelle retenue, que ces zones de renforcement de ces poufs laryngés, se répétant à l’identique dans une voyelle tenue stable, se caractérisent par une harmonique de xe rang autour de laquelle une ou plusieurs harmoniques de rang inférieur mais aussi une ou plusieurs harmoniques de rang plus élevé présentent aussi un indiscutable renforcement.
L’observation de ces deux figures 3.42 et 3.43 permet de noter les divers formants sur la figure 3.44.
Figure 3.44 |
Dans notre exemple, on observe de suite que deux harmoniques, la 3e et la 4e, à 403,5 et 538Hz, constituent le 1er formant. On dira que son champ fréquentiel s’étend de 403,5Hz (3e harmonique) à 538Hz (4e harmonique), ce qui ne veut toutefois pas dire qu’il s’agisse d’une bande de bruit de 134,5Hz de large !
La zone suivante de renforcement, lié à une autre résonance, se situe à hauteur de l’harmonique de 8e rang, à 1076Hz. Cette fréquence correspond au champ fréquentiel du second formant.
Ce sont essentiellement ce premier et ce second formant du /a/ qui permettent l’identification de la voyelle comme nous le démontrerons plus loin.
La participation du 1er formant pour l’identification phonétique est compréhensible pour le cas particulier de /a/. En effet, on voit bien sur le triangle vocalique que le phonème /a/, ou celui très voisin du /a/, ne partage pas avec d’autres phonèmes un champ fréquentiel identique pour le 1er formant. Par contre, les 1ers formants de /u/, /y/ et /i/ par exemple, situés tous trois vers 250Hz, ne participent pas beaucoup à la différentiation phonétique de ces trois voyelles.
Par rapport aux valeurs moyennes des résultats obtenus par DELATTRE pour le /a/ qui sont de 750Hz pour le 1er formant et 1200Hz pour le second, on note un léger décalage dans ce casci d’un locuteur dont le fondamental laryngé se situe, non pas à 120Hz comme dans le cas de DELATTRE, mais à 134,5Hz.
La zone suivante de renforcement correspond au 3e formant. Il est constitué des champs fréquentiels des trois harmoniques de 17e, 18e et 19e rang, à 2286,5Hz, 2421Hz et 2555,5Hz.
La zone suivante de renforcement qui correspond au 4e formant est constituée par deux harmoniques : les 25e et 26e, à 3362,5 et 3497Hz.
Sur la figure 3.42, on peut observer des formants supérieurs au 4e, avec trois harmoniques, les 29e, 30e et 31e, autour de 4000Hz (3900,5Hz, 4035Hz et 4169,5Hz) mais à des niveaux de pression acoustique de 13dB inférieurs à ceux du 4e formant.
Il existe encore, transposées en fréquences, d’autres zones de résonance à 5111Hz, 7397,5Hz et 8877Hz mais leurs niveaux respectifs de pression acoustique sont inférieurs de 13, 21 et 26dB environ à celui du 4e formant.
Il est malgré tout remarquable qu’une harmonique de 55e rang apparaisse à 7397,5Hz, en émergence par rapport au bruit de fond de la cabine insonore, même si son intensité est inférieure de 52dB à celle de la 4e harmonique, la plus intense de toutes, qui correspond à un des deux champs fréquentiels du 1er formant de la voyelle /a/ émise. Nous verrons plus loin une note de guitare dont le spectre ne présente pas beaucoup plus de 18 harmoniques (figure 3.51) !
Nous avons expliqué plus haut les motifs du choix de l’analyse spectrale en dB pondérés A.
Mais ce spectre du /a/ peut être aussi présenté en dB linéaires (figure 3.45). Dans une échelle logarithmique de fréquences de 100 à 10 000Hz, on peut comparer cette figure 3.45, établie sans courbe de pondération, c’est-à-dire en dB SPL, à la figure 3.42établie en courbe de pondération A. Il faut toutefois prendre garde au fait que l’échelle des intensités de la figure 3.45 a dû être modifiée pour s’étendre de −10dB à 80dB pleine échelle.
– On observe que le F0, situé à la fréquence 134,5Hz, passe de 66,94dB linéaires ou SPL à 53,4dB (A).
– La 2e harmonique passe de 59,6dB SPL à 52,12dB (A).
– La 3e harmonique passe de 68,53dB SPL à 63,6dB (A).
– La 4e harmonique passe de 68,15dB SPL à 65,3dB (A).
Figure 3.45 |
L’atténuation, pour passer des décibels physiques ou linéaires aux décibels pondérés A, a été établie par le calculateur en fonction des normes (tableau 3.8), c’est-à-dire sur la base approchée de la différence entre la courbe isosonique 40 phones et 40dB SPL (réf. 2 × 10−5 Pascal).
Pour le F0, l’atténuation entre dB Lin et dB (A) est donc de 13,54dB ; pour la 2e harmonique de 7,48dB ; pour la 3e harmonique de 4,93dB et pour la 4e harmonique de 2,85dB.
Or, l’intensité SPL de ces trois harmoniques est plus proche de 70dB SPL que de 40dB SPL. La courbe de pondération B aurait donc dû être utilisée.
Dans ce cas, aux fréquences des harmoniques de 1er, 2e, 3e et 4e rang, la pondération B n’aurait apporté qu’un correctif de l’ordre de 3,8dB, 1,2dB, 0,5dB et 0,23dB par rapport à la courbe en dB SPL.
De la sorte, les valeurs, sous courbe de pondération A, de ces trois harmoniques sont sous-évaluées d’environ 9,7dB, 6,3dB, 4,4dB et 2,6dB.
Il ne faut pas oublier cet excès d’atténuation apportée pour des signaux intenses par la courbe de pondération A, en particulier lorsque l’on compare l’énergie relative des différentes harmoniques du F0 d’une voyelle.
Il n’empêche que, même en établissant ce correctif logique, le niveau de pression acoustique du fondamental laryngé n’atteint ni ne dépasse celui de la 3e ni de la 4e harmonique (figure 3.43).
En effet, au plan plus juste de l’analyse physiologique, à la fréquence de 134,5Hz, le F0 devrait être de 66,94 − 3,8 = 63,14dB (B), ce qui reste en dessous des niveaux de pression acoustique de la 3e harmonique : 68,53 − 0,5 = 68,03dB (B) et de la 4e harmonique : 68,15 − 0,23 = 67,92dB (B).
Dans le cas de ce /a/ enregistré, le F0 présente un niveau de pression acoustique supérieur de 7,34dB linéaires et de 1,28dB (A) à celui de la 2e harmonique.
On peut aussi comparer les niveaux de pression acoustique du fondamental laryngé à ceux des 1er et 2e formants (figure 3.44).
Le 1er formant F1 est constitué des 3e et 4e harmoniques, à 403,5 et 538Hz. Leurs intensités respectives sont de 63,9 et 65,3dB (A). Leur addition logarithmique porte l’énergie globale du F1 à 67,7dB (A), valeur bien supérieure aux 53,4dB (A) ou 63,14dB (B) du F0.
Le 2e formant est constitué de la 8e harmonique, à 1076Hz. Son intensité est de 55,5dB (A). Elle est encore supérieure à celle du F0.
L’observation de la globalité du spectre du /a/ permet de faire une autre observation. En effet, le niveau de pression acoustique du 1er formant dépasse celui de tous les autres champs fréquentiels.
Dans notre exemple, le niveau de pression acoustique global des deux harmoniques qui constituent le 1er formant s’élève à 67,7dB (A).
Le niveau de pression acoustique de l’harmonique qui constitue le 2e formant s’élève à 55,5dB (A).
Le différentiel de niveau par rapport au F0 est donc de 2,1dB.
Le 3e formant, constitué des 17e, 18e et 19e harmoniques à 2286,5Hz, 2421Hz et 2555,5Hz, présente un niveau de pression acoustique de 32 + 34,4 + 32,4dB (A), soit 37,8dB (A).
Le 4e formant, constitué des 25e et 26e harmoniques à 3362,5Hz et 3497Hz, présente un niveau de pression acoustique de 31,91 + 35,46dB (A), soit 37dB (A).
Quant aux formants supérieurs au 4e, ils se situent à des niveaux de pression acoustique relatifs nettement moindres : de 15dB environ inférieurs à ceux du 3e et du 4e formant pour celui autour de 5000Hz et de 20dB environ inférieurs pour les formants encore supérieurs.
On imagine aisément l’incidence perceptive de cette différence énergétique et nous y reviendrons. Mais nous pouvons déjà rappeler qu’en acoustique, lorsque deux signaux diffèrent en intensité de plus de 10dB, le moins intense n’a quasiment plus d’incidence sur le plus intense en termes de sommation d’intensité.
On observe encore une harmonique du fondamental laryngé (2e à 269Hz) qui présente un niveau de pression acoustique significatif, même si celui-ci a une intensité relative nettement plus faible que celles des deux premiers formants. Cette harmonique signe, encore plus s’il le fallait, le caractère éminemment périodique du signal composé qu’est la voyelle.
On peut aisément classer les harmoniques par ordre de niveau de pression acoustique. Pour ce classement, nous nous sommes limités aux dix principales harmoniques de notre phonème /a/ (figure 3.46).
Figure 3.46 |
Il apparaît dans cet exemple que le niveau de pression acoustique du fondamental laryngé n’obtient que le 5e rang. Ce fondamental laryngé (ici à 134,5Hz) appelé aussi fréquence fondamentale, ou F0, ou 1re harmonique, ne présente donc pas le niveau de pression acoustique le plus élevé de toutes les harmoniques, contrairement à de nombreuses affirmations. On observe même dans le cas présent une intensité relative inférieure à celle des deux premiers formants. Or dans la littérature, on continue de lire que « le fondamental laryngé fournit l’énergie acoustique principale de la parole » ou « qu’il détermine l’intensité du son complexe », tout simplement parce qu’il y a confusion entre fondamental laryngé et voisement.
Le fondamental laryngé étant encore considéré comme le composant principal du son complexe, on lui attribue aussi le rôle de déterminer l’intensité du son complexe. En réalité, il donne la connotation de hauteur au son complexe (même dans le cas où il n’est pas entendu comme au téléphone), mais ce sont les harmoniques les plus intenses, quels que soient leurs rangs, qui déterminent l’intensité du son complexe.
Nous verrons plus loin l’incidence perceptive de cette faiblesse d’intensité relative d’une part et de caractère d’harmonique la plus grave de la voyelle d’autre part.
Nous verrons aussi, en évoquant les voyelles synthétiques, le peu d’utilité de percevoir le fondamental laryngé ainsi que la ou les harmoniques de rang(s) plus faible(s) que celle(s) qui constitue(nt) le 1er formant. Si bien que cette donnée perceptive essentielle viendra valider encore le fait que la courbe de pondération A est tout à fait justifiée pour l’étude des phonèmes.
Lors de l’émission d’une voyelle en voix chantée, le fondamental laryngé effectue un glissement fréquentiel comme nous l’avons dit plus haut, mais les formants F1 et F2 effectuent également des glissements fréquentiels parfaitement décrits dans le chapitre I. Ils restent toutefois cohérents l’un vis-à-vis de l’autre, ce qui permet à l’auditeur de maintenir la parfaite identification de la voyelle particulière.
Dans le même milieu de vie calme et en utilisant les mêmes conditions d’enregistrement (microphone SONY ECM-909 A) que lors de nos séries initiales de voyelles, demandons à un sujet masculin d’émettre la voyelle /a/ avec une voix moyenne (figure 3.47), puis de chanter cette même voyelle /a/ dans un registre grave puis dans un registre aigu (figures 3.48 et 3.49).
Figure 3.47 |
Figure 3.48 |
Figure 3.49 |
Pour la voix moyenne (figure 3.47), le F0 du locuteur se situe à 154Hz, le F1 à 616 et 770Hz et le F2 à 1 232Hz.
Dans le cas de la voix chantée, dans le 1er cas (figure 3.48), le F0 se situe à 117Hz, le F1 à 702Hz et le F2 à 1053Hz.
Dans le 2e cas (figure 3.49), le F0 se situe à 347Hz, le F1 à 694Hz et le F2 à 1041Hz.
On constate que la production chantée dans le registre grave génère un niveau de pression acoustique RMS de 82,6dB (A), plus faible que le niveau RMS de 89,5dB (A) que l’on observe dans le registre aigu.
Les formants 1 et 2 se sont rapprochés. En effet pour un /a/, DELATTRE indique un F1 à 750Hz et un F2 à 1350Hz, soit un écart de 600Hz. Dans la littérature, on trouve des valeurs à 750 et 1300Hz, soit un écart de 550Hz.
Notre sujet présentait en voix moyenne un écart de 1232–616 = 616Hz.
Dans notre exemple, les écarts qui séparent F1 et F2 sont de 1053–702 = 351Hz dans le registre grave et de 1041–694 = 347Hz dans le registre aigu.
Une autre différence significative est que le F1 en registre grave est la 6e harmonique (figur 3.48), alors qu’il est la 2e dans le registre aigu (figure 3.49). C’est d’ailleurs le nombre élevé d’harmoniques dans le registre grave qui fait que la valeur RMS de ce signal n’est plus faible que de 6,9dB par rapport à la valeur RMS du signal en registre aigu alors que les F0 et F1 respectifs sont décalés de 20dB environ dans les deux configurations.
Demandons maintenant à un locuteur masculin, dont le fondamental laryngé se situe à 132Hz, d’émettre le même phonème /a/. Traçons son spectre sur une échelle logarithmique de fréquences allant de 100 à 10 000Hz (figure 3.50).
Figure 3.50 |
Puis, jouons une note de guitare dont la fréquence fondamentale est également à 132Hz (figure 3.51).
Figure 3.51 |
Nous observons dans les deux figures un signal périodique complexe. La première différence correspond au niveau de pression acoustique de la fréquence fondamentale et à la répartition des partiels.
Dans la note de guitare, la fréquence fondamentale est, à une harmonique près, la fréquence la plus intense du signal composé périodique. La diminution énergétique est assez régulière au fur et à mesure que l’on s’élève vers les harmoniques de rang élevé. Il n’existe pas de champs fréquentiels correspondant aux renforcements, aux absorptions ni aux réflexions que nous avons rencontrés dans la production de la voyelle et qui se caractérisent par une majoration ou une minoration de l’amplitude de certaines harmoniques du signal vocal (cf. « Acoustique et musique » de LEIPP).
La seconde différence correspond au nombre des harmoniques émergeant du bruit de fond. Dans la note de guitare, on peut en compter dix-huit dans cette situation. Par contre, dans le /a/ de notre locuteur masculin, on relève une trentaine d’harmoniques émergeant significativement du bruit de fond.
Observons maintenant un /u/.
On enregistre dans un fichier son (.wav) une voyelle /u/ prononcée par un locuteur masculin dans un contexte de voyelle seule mais sans que ce phonème ne soit « tenu » comme fait précédemment. Nous restons toujours dans le même lieu de vie calme et utilisons toujours le microphone SOMY ECM-909A.
L’observation en temps différé permet, en choisissant une résolution temporelle fine de 0,10ms, de repérer exactement la fin du transitoire d’attaque et le début du transitoire d’extinction. La durée stable de la voyelle est de 230ms, ce qui est en bonne concordance avec ce qui sera dit plus loin sur la durée des voyelles.
Pendant cette durée de stabilité, nous allons observer, en temps différé et en moyennage infini, la voyelle /u/ en faisant varier la résolution spectrale (en augmentant la taille de la FFT par majoration du nombre d’échantillons). La résolution temporelle variera évidemment sans que cela nous soucie puisque notre signal est stable.
Regardons tout d’abord cette voyelle en sélectionnant une résolution spectrale de 97Hz. (figure 3.52). On peut observer des zones de renforcement au-delà de 2000Hz, mais en dessous de cette fréquence, l’analyse est impossible (figure 3.53).
Figure 3.52 |
Figure 3.53 |
Avec une résolution spectrale de 48Hz (figure 3.54), les renforcements au-delà de 2000Hz sont plus précisément mis en évidence. Commencent à apparaître, sous cette fréquence, les sommets des émergences liées aux renforcements supralaryngés (figure 3.55).
Figure 3.54 |
Figure 3.55 |
Le passage à une résolution spectrale de 24Hz (figure 3.56) permet de commencer à préciser le caractère éminemment périodique de ce signal complexe. Mais le résultat de l’analyse demeure empâté pour la partie du signal inférieure à 1000Hz (figure 3.57).
Figure 3.56 |
Figure 3.57 |
Le passage à une résolution spectrale de 12Hz (figure 3.58) améliore notablement la précision de l’analyse des sons les plus graves (figure 3.59).
Figure 3.58 |
Figure 3.59 |
Enfin, le passage à une résolution spectrale de 6Hz (figure 3.60) donne une parfaite satisfaction (figure 3.61). La résolution temporelle est passée de 0,10ms depuis la première observation à 1,64ms. La fréquence limite est toujours à 50 000Hz.
Figure 3.60 |
Figure 3.61 |
Utiliser une résolution spectrale de 1Hz (figure 3.62) n’apporte pas d’amélioration très significative dans la précision de l’observation (figure 3.63). Une telle résolution spectrale risque en outre de présenter des difficultés pour apprécier le niveau réel des raies spectrales.
Figure 3.62 |
Figure 3.63 |
En effet, pendant chaque fenêtre de la résolution temporelle, fixée à 1,64ms dans notre exemple, nous pouvons, en choisissant une vue zoomée d’échantillons comme nous l’avons fait sur les figures 3.37 et 3.38, mesurer avec exactitude les infimes variations du rythme des poufs laryngés. Les valeurs mesurées, en dehors des transitoires d’attaque et d’extinction, varient en durée de l’ordre de 0,000285s, ce qui signifie que la production des poufs laryngés de notre locuteur est stable à plus ou moins 0,1425ms.
Ramenées en fréquence, ces minuscules fluctuations temporelles correspondent à environ 4,7Hz.
Ce qui veut dire que ce locuteur qui a émis un /u/ présente un fondamental laryngé stable à ± 2,35Hz. Or, ce locuteur est un sujet qui ne présente ni voix chevrotante ni trémolos dans la voix !
Cette observation est intéressante à formuler, car il ne faudrait pas imaginer que la voix humaine, même lorsqu’elle émet une voyelle tenue stable, présente une stabilité absolument parfaite dans la périodicité de fabrication des poufs laryngés successifs. Ceci s’explique par les infimes variations des volumes, liées aux tensions musculaires, des cavités de résonance pendant le temps de production, mais aussi par les minuscules variations de l’énergie du flux laryngé.
Au-delà de ces faibles modifications, il est évident que l’émotion, la fatigue et l’âge ont en outre une forte incidence sur la régularité de ces tensions et de cette énergie.
La figure 3.39 permet, par une observation ultra-précise, de remarquer les différences énergétiques infimes existant sur chacun des renforcements de chacun des deux poufs laryngés successifs.
Précédemment, nous avions demandé à un même locuteur d’émettre la série /i/, /u/ et /a/. En prenant au hasard, pour quatre poufs laryngés successifs pendant la partie stable de chaque phonème, le temps séparant le début du pouf et la survenue du 1er formant, nous avons observé des valeurs irrégulières. Sur cette très courte série de quatre poufs laryngés successifs, on note une variation par rapport à la moyenne de ± 2,08 % dans le cas du /i/, 3,1 % dans le cas du /a/ et 0,9 % dans le cas du /u/. C’est dans le cas de la très grande aperture utilisée pour produire le /a/, que le pourcentage de variation est, de façon logique, le plus élevé.
Ainsi donc, pendant l’émission de la voyelle, des variations d’intensité et des fluctuations tempore lles apparaissent, même dans le cas où l’émission paraît parfaitement régulière, sans aucune instabilité.
La périodicité variant légèrement dans le temps et donc a fortiori pendant la fenêtre temporelle d’analyse, la largeur spectrale rapportée par le calculateur est en total accord avec la temporalité du signal. C’est pour ce motif que la largeur du fondamental laryngé apparaît être de quelques hertz quand la résolution temporelle est plus grande même si la résolution spectrale fixée est très fine. Et ce d’autant plus que la taille du bloc de moyennage correspond à un nombre élevé, voire infini, d’échantillons. Le terme « infini » est celui que propose le logiciel. Il nous semble que celui d’« illimité » conviendrait mieux !
Nous avons dit aussi plus haut le risque de voir fausser l’interprétation en choisissant une résolution spectrale trop fine.
Notre locuteur, dans l’exemple précis de cette voyelle /u/, présentait des variations dans la durée de chacun de ses poufs laryngés, assimilables par le calcul à des variations de hauteur de ± 2,35Hz pendant l’émission du phonème.
Nous avons, à l’identique de ce qui vient d’être fait, analysé le spectre de la partie stable du /u/ prononcé en choisissant une résolution spectrale de 3Hz. Le niveau de pression acoustique ne se modifie pas.
Avec une résolution spectrale de 2Hz, le niveau de pression acoustique commence à chuter. Cette diminution s’aggrave avec une résolution spectrale de 1,5Hz.
La figure 3.63 qui correspond à une analyse en résolution spectrale de 1Hz, montre de façon flagrante une chute du niveau de pression acoustique de l’ordre de 10dB des diverses harmoniques observables sur les spectres obtenus en résolution spectrale plus large (figures 3.53, 3.55, 3.57, 3.59 et 3.61). Lorsque la largeur de la fenêtre spectrale couvre la largeur des fluctuations spectrales des harmoniques, l’analyse est juste. Par contre, choisir une excessive finesse de résolution spectrale, alors que la hauteur des harmoniques varie de façon même minime, demanderait de faire une sommation des raies concernées.
De plus, pour obtenir cette finesse de résolution spectrale de 1Hz, nous trouvant à la taille maximale de la FFT, nous avons été dans l’obligation de porter le taux de sous-échantillonnage de 1 à 6. La même résolution temporelle a été maintenue mais, par contre, la fréquence limite a chuté à 8333Hz (figure 3.62) ! Ce qui nous oblige à réduire la plage fréquentielle, en abscisse, de cette dernière vue spectrale (figure 3.63).
Cette constatation des divers niveaux de qualité de l’observation permettra de choisir, pour la résolution spectrale, la valeur de 6Hz ou des valeurs plus petites encore, en faisant en sorte que la fréquence limite de l’analyse corresponde, a minima, à la largeur fréquentielle des signaux vocaux à observer.
Ce même signal d’un /u/, que nous venons de découvrir en résolution spectrale de plus en plus fine, peut bien évidemment être observé par 1/3 d’octave (figure 3.64).
Figure 3.64 |
Chacun des 1/3 d’octave intègre l’énergie présente dans sa propre étendue fréquentielle.
On peut aisément repérer le 1/3 d’octave centré sur 160Hz qui intègre l’énergie du fondamental laryngé.
De la même façon, le 1/3 d’octave centré sur 320Hz est révélateur de l’énergie du 1er formant.
Les trois tiers d’octave centrés sur 500, 640 et 800Hz reflètent l’énergie du 2e formant.
Plus loin, les deux 1/3 d’octave centrés sur 2000 et 2500Hz sont révélateurs de l’énergie assez faible du 3e formant, celui centré sur 3200Hz est révélateur de l’énergie plus importante du 4e formant et celui centré sur 6400Hz est révélateur du 5e formant, lui-même plus intense que le 3e.
Cette représentation est aussi très utile pour identifier les zones de renforcement liées aux résonances des résonateurs supralaryngés. Il est d’ailleurs amusant de voir que les deux extrêmes dans l’axe des fréquences que sont la finesse de l’échelle linéaire et la compacité grossière de l’échelle par 1/3 d’octave participent autant l’une que l’autre à l’identification formantique.
Cette représentation par 1/3 d’octave n’est pas si éloignée de ce que nous a enseigné Madame BOREL-MAISONNY, mère de l’orthophonie, au travers de son « acougramme phonétique », présenté en 1961, (figure 3.65) et que nous utilisons encore au point d’en avoir l’image gravée dans nos mémoires. Il trône toujours dans nos cabines insonores et sur nos documents. Tout y était déjà dit sur la zone énergétique des voyelles avec une magnifique justesse.