G.722.2

Le G.722.2 est une norme de compression audio de l'UIT-T (Union internationale des télécommunications). Ce protocole est également normalisé par l'ETSI sous le nom AMR-WB (Adaptive Multi Rate - Wide Band). Ce codec est appelé « large bande » car il permet une bande passante plus grande que celle des téléphones classiques (fixes et mobiles).

Fréquence d'échantillonnage : 16 000 Hz
Bande passante audio : 50 à 7 000 Hz
Débit sur le réseau : de 6,60 à 23,85 kbit/s

Qualité des communications téléphoniques – rappel historique

L’amélioration des communications téléphoniques a été une préoccupation permanente des industriels et des opérateurs : une période récente riche en évolution technologique a permis l’émergence de la voix en bande élargie (normes G.722 et G722.2) également appelée voix HD (Haute Définition).

Que ce soit en téléphonie fixe, mobile ou en VoIP le transport de la parole sur les réseaux de télécommunication s'effectue au travers d'une chaîne comportant invariablement une partie acoustique (microphone, écouteur), un échantillonnage pour numériser le signal, des traitements de correction des défauts (bruit, écho acoustique) et un dispositif de codage.

Du fait de la relation entre la fréquence d'échantillonnage et la bande passante du signal transmis (théorème d'échantillonnage de Nyquist-Shannon), l'échantillonnage définit la qualité intrinsèque du signal. En téléphonie standard, le codec le plus utilisé est le G.711 ; la bande passante est de « 300 Hz, 3 400 Hz » pour une fréquence d'échantillonnage de 8 kHz (article « traitement de la parole »). Ceci résulte des limitations techniques initiales du Réseau téléphonique commuté. Cette gamme de fréquence est suffisante pour comprendre l'interlocuteur distant mais est loin de couvrir la gamme de fréquences de la parole humaine (50 Hz – 12 kHz) et a fortiori celle de l'audition (20 Hz, 20 kHz chez un sujet jeune). Cette restriction se traduit par une voix plus pauvre, moins fidèle et des confusions de certains sons en particulier les sifflantes "ss" et "ff" dont le pic d'énergie est dans le haut du spectre au-delà de 4 kHz. En conditions défavorables, par exemple en environnement bruyant, la compréhension est plus difficile. Il en est de même lors de communications en langue étrangère.

Outrepasser ces limitations constitue depuis longtemps une ambition des acteurs des télécommunications. Dès la fin des années 1980, la normalisation à l'UIT-T du codeur G.722 posait le cadre de la téléphonie en bande élargie c'est-à-dire offrant une gamme de fréquence étendue à « 50 Hz – 7 kHz » pour un échantillonnage à 16 kHz et se détachant nettement de la téléphonie traditionnelle appelée dorénavant téléphonie bande étroite. Outre la largeur de bande et le format de codage, la norme G.722 définit également l'ensemble des exigences de qualité en ce qui concerne le rapport signal à bruit, la distorsion…
L'époque était celle du RNIS dont on espérait un déploiement et une adoption massifs. Ce ne fut pas le cas et l'usage du codeur G.722 fut restreint aux applications professionnelles notamment les terminaux pour radio reporters, la visioconférence.

La téléphonie en bande élargie réclame deux ingrédients techniques majeurs: un réseau transparent et de qualité – c'est-à-dire qui transporte sans modification le signal codé par exemple en G.722 – et des terminaux dont les caractéristiques audio et acoustique respectent la qualité « large bande » du signal de parole. À l'époque, les deux conditions n'étaient pas réunies. Le réseau RNIS n'ayant pas connu le succès escompté et l'état de la technologie tant en acoustique qu'en traitement du signal ne permettait pas de disposer de terminaux ayant les caractéristiques attendues tout au moins pour un marché grand public.

La concrétisation de la téléphonie bande élargie vint donc nettement plus tard. Ce fut tout d'abord dans la première moitié des années 2000 au travers des softphones, c'est-à-dire des solutions logicielles fonctionnant sur ordinateur (PC essentiellement) et permettant d'établir une communication vocale au travers d'un réseau IP (Internet par exemple). Après une première période "bande étroite", ces solutions firent assez rapidement appel à des codeurs bande élargie (codec Siren (en) pour XP Messenger de Microsoft en 2001, iSAC (en) de GIPS pour Skype à la fin 2003). En dépit de certaines difficultés techniques – dont la gestion des accès audio ou de la fonction mains libres par exemple – l'usage des "PCs" lève une bonne partie des obstacles précédemment mentionnés. La puissance des machines permettait dès cette époque de réaliser les traitements temps réel nécessaires, les accessoires multimédias (casque, microphone, enceinte) respectait la qualité bande élargie. Quant au réseau Internet, s'il n'y a pas de garantie de Qualité de Service, pour le moins il est transparent au format codé du média. Le succès de ces solutions de softelephony ne fut pas accompagné d'une communication sur la qualité et la bande élargie mais plutôt sur la gratuité et le couplage voix data. Tout au plus, on relevait des commentaires d'utilisateurs appréciant la qualité des communications lorsque le réseau était non congestionné.

L'étape suivante date de la deuxième moitié des années 2000 avec la généralisation des offres de Voix sur IP (VoIP), tant pour le grand public au travers des passerelles domestiques ("Box" ) que sur les réseaux d'entreprise et la disponibilité croissante de terminaux bande élargie. Les progrès en matière de transducteurs acoustiques (écouteurs et haut-parleurs), la puissance croissante des processeurs équipant les terminaux facilitent alors la disponibilité de terminaux conforme aux exigences de la bande élargie. Encore fallait-il pour le contexte domestique que les terminaux sans fil soient également compatibles. C'est le cas depuis que l'évolution du DECT au travers de la norme CAT-iq (pour Cordless Advanced Telephony – Internet and Quality) définit le support du codeur G.722 sur l'interface DECT. Cette norme approuvée par l'ETSI a été intégrée dans la plupart des produits.

C'est également à cette époque que la terminologie "Haute Définition" (HD) est apparue pour désigner la téléphonie en bande élargie. Que ce soit la "Voix Haute Définition" d'Orange, le "High Definition Sound" de Bouygues Telecom ou encore "HD Voice" de Polycom, les acteurs du domaine s'inspirent alors largement de la HD TV pour leur communication à l'intention du grand public.

La téléphonie mobile embraie à son tour à la fin des années 2000 avec le déploiement du codeur WB-AMR sur certains réseaux 3G UMTS, puis sur les réseaux 4G (VoLTE).

La voix HD pour quelle qualité et quels bénéfices?

Élargir le spectre de fréquences des communications téléphoniques à la gamme [50 Hz – 7 kHz] améliore nettement deux dimensions perceptives: le confort et l'intelligibilité.

Ce confort est lié au spectre plus large de la parole (en particulier dans les basses fréquences) et de l'amélioration des autres facteurs techniques qui peuvent être la réduction des niveaux de bruit et de la distorsion du signal. Ces améliorations résultent de l'attention apportée par les industriels dans le cadre de la Voix HD à l'ensemble de ces facteurs.

Sur un plan plus fonctionnel, l'intelligibilité de la conversation profite également de la bande élargie, (article Polycom). La reproduction d'un spectre de fréquences plus large aide le système cognitif à mieux reconnaître les mots prononcés. Les sons non-voisés (tels les sifflantes « s » et « f », les consonnes) ont un spectre d'énergie qui dépasse la limite des 3 400 Hz de la téléphonie traditionnelle. L'indice d'articulation (Articulation Score en anglais) est le pourcentage de reconnaissance correcte de syllabes ou de mots dans une liste ou dans une phrase. Dans le cas de syllabes, cet indice passe de 75 % pour un signal de parole limité à 3,3 kHz à 95 % pour une bande de fréquence de 7 kHz. Cet accroissement de l'intelligibilité est particulièrement appréciable dans des conditions défavorables, par exemple en environnement bruyant ou dans le cas de communications en langue étrangère. Il en résulte une moindre fatigue et une efficacité accrue particulièrement intéressante pour les secteurs professionnels. Plus d'appels téléphoniques peuvent être passés dans plus d'endroits (lieux bruyants, transports).

La mesure de cette amélioration de qualité est réalisée au travers de tests subjectifs effectués selon des critères définis par des normes internationales (recommandation P.800). Sur l'échelle MOS qui comporte 5 niveaux (de 1 qualité médiocre à 5 qualité excellente), la différence entre bande étroite et bande élargie est de l'ordre de 1,0 MOS. Le seuil de différence juste perceptible étant de l'ordre de 0,2 MOS, la bande élargie se distingue donc très nettement de la bande étroite.

Les composantes techniques de la Voix Haute Définition

L'ensemble de la chaîne audio doit respecter les critères de qualité de la bande élargie, à savoir la réponse en fréquence étendue à 7 kHz, les niveaux de bruit et de distorsion inférieurs à certains seuils.

Ces exigences concernent tant l'ensemble des traitements réalisés dans le terminal: échantillonnage, codage de la parole … que l'acoustique de ce même terminal. Les composants matériels sont bien sûr les mêmes dans le cas de communications bande étroite. Celles-ci bénéficient donc des exigences de qualité "bande élargie" imposées aux éléments acoustiques (microphone, écouteur, …). Ce dernier point est déterminant car dans les premières phases du déploiement de la Voix Haute Définition, le nombre de terminaux HD est faible. La probabilité de passer un appel en bande élargie l'est encore plus. Mais le possesseur d'un terminal HD est assuré d'avoir pour tous ses appels (y compris en bande étroite) la meilleure qualité possible.

Il ne suffit pas que le terminal respecte ces exigences, encore faut il que le réseau offre une qualité de service (Quality Of Service - QoS) garantie tant en ce qui concerne la disponibilité du service de communication que la performance du transport (délai de bout en bout réduit, taux d'erreurs sur le canal radio, …). Ce sont les règles d'ingénierie et de dimensionnement du réseau qui permettent de garantir cette QoS.

Pour une meilleure qualité d'utilisation, les terminaux Voix HD embarquent généralement des fonctions telles le "main libre" et le dé-bruitage. Celui-ci est particulièrement déterminant pour les communications mobiles qui dans une proportion importante sont passées depuis des environnements bruyants. Comme les autres composants d'un service de communication Voix HD, mains libres et dé-bruitage doivent répondre à des critères de performance.

Le codeur WB-AMR

Le codeur ou codec est le dispositif qui dans la chaîne de communication adapte le signal à transmettre – ici la parole - au réseau de transport. La fonction première du codeur est la compression de débit. À l'émission, le codeur produit un flux codé c'est-à-dire une représentation des échantillons de parole sur un nombre de bits compatible avec les capacités du réseau de transmission. C'est ce format codé qui circule sur le réseau. À la réception, le décodeur régénère un signal qui d'un point de vue perceptuel doit être le plus proche possible du signal de parole original. À titre d'exemple, un signal de parole bande élargie est échantillonné à 16 kHz, les échantillons sont représentés sur 16 bits. Le débit original est donc de 256 kbit/s. Pour être compatible avec la capacité des réseaux mobiles, le codeur WB-AMR décrit ci-dessous, ramène ce débit à 12,65 kbit/s. Cette réduction de débit doit se faire en respectant plusieurs contraintes:

une dégradation la plus faible possible de la qualité de la parole,
un coût en calcul compatible avec les puissances des processeurs présents dans les terminaux,
un retard introduit dans la chaîne de communication le plus faible possible,
une robustesse aux erreurs de transmission survenant sur la chaîne de communication.

Pour parvenir à ces fins, le codage de parole fait appel à des techniques algorithmiques qui tirent parti des propriétés de la parole et de celles de l'audition humaine.

Il existe plusieurs familles de codeurs de parole (référence). Certains sont normalisés c'est-à-dire développés ou sélectionnés dans le cadre d'une action de normalisation lancée par un organisme international tel le 3GPP ou l'ITU-T. La solution retenue résulte généralement d'une compétition entre plusieurs candidats selon des critères connus et partagés par les acteurs. Puisqu'il s'agit de format de communication, il est crucial de s'assurer de leur interopérabilité c'est-à-dire que l'émetteur et le récepteur, quel qu’ils soient, puissent communiquer. À cet effet, la description précise de la norme de codage est publique, des séquences de test permettent de s'assurer de la bonne implantation de l'algorithme de codage.

Sur les réseaux mobiles, la ressource radio étant limitée, le débit du codage de parole doit demeurer faible. Du fait des erreurs survenant sur le canal radio, le codeur doit également être robuste aux erreurs de transmission. La technologie AMR (Adaptive Multi-Rate) a été développée dans ce but. Il s'agit d'un codeur multi débits c'est-à-dire pouvant fonctionner à plusieurs débits (ou modes). Le choix du mode répond à un compromis entre la qualité de la parole (c.a.d le débit du codeur), le niveau de qualité du lien radio (C/I, niveau de champ rapporté aux interférences) et la capacité de la cellule.

Par exemple, lorsque les conditions radios sont bonnes (C/I élevé), le mode ayant un débit parole plus élevé et un codage canal plus faible sera choisi. A contrario, lorsque les conditions radio se dégradent (le rapport C/I baisse), il sera nécessaire d’augmenter le codage canal et donc de passer à un mode AMR plus faible.

Le codeur AMR a été normalisé par le 3GPP (3rd Generation Partnership Project, instance de normalisation pour les réseaux mobiles cellulaires) en 1999. S'appliquant à des signaux bande étroite, il comporte 8 modes : 12,2 kbit/s, 10,2 kbit/s, 7,95 kbit/s, 7,4 kbit/s, 6,7 kbit/s, 5,9 kbit/s, 5,15 kbit/s et 4,75 kbit/s. Il est largement employé sur les réseaux mobiles 2G et 3G.

Bâti sur le même modèle, le codeur WB-AMR destiné à la bande élargie a quant à lui été normalisé en 2000 au 3GPP (Release 5). Il a été également reconnu comme norme par l'ITU-T en juillet 2003 sous le nom de G.722.2. Le codeur WB-AMR comporte 9 modes dont seuls 5 sont obligatoires dans les terminaux : 6,6 kbit/s, 8,85 kbit/s, 12,65 kbit/s, 15,85 kbit/s, 23,85 kbit/s. Sur les réseaux 2G, seuls les 3 débits inférieurs peuvent être employés. Sur les réseaux 3G, les cinq débits sont utilisables. Toutefois, sur le plan de la qualité, pour la parole, les deux débits supérieurs se distinguent peu du mode 12,65 kbit/s tout en consommant notablement plus de ressource radio. Aussi, les déploiements du codeur WB-AMR se limitent-ils généralement aux 3 modes inférieurs. Ceci est d'autant plus justifié qu'à 12,65 kbit/s - débit très proche du plus élevé de l'AMR (12,2 kbit/s) - la couverture radio et la capacité cellulaire du codeur WB-AMR sont très proches de celles de l'AMR.

À l'instar de l'AMR, le codeur WB-AMR utilise la technologie ACELP (Algebraic Code Excited Linear Prediction) qui s'appuie sur une modélisation du système de production de la parole. Il est également doté de mécanismes de transmission discontinue ("DTX") permettant d'optimiser la consommation de la ressource radio en ne transmettant pas de signal lors des périodes de non-activité vocale. Pour cela, à l'encodeur, un détecteur d'activité vocale (VAD pour "Voice Activity Detection") discrimine les instants de parole de ceux de silence ou de bruit. Au décodeur, un générateur de bruit de confort (CNG pour "Comfort Noise Generator") régénère un signal le plus proche possible du bruit original. Au décodeur, des dispositifs de correction de trames corrompues permettent de réduire l'effet des erreurs survenant sur le canal radio. Le décodeur est prévenu de l'état de chaque trame (entièrement préservée, partiellement corrompue, entièrement corrompue) au moyen d'informations fournies par les couches réseau.

L'évaluation de la qualité du codeur WB-AMR au travers de différents tests subjectifs réalisés par l’industrie (notation MOS – Mean Opinion Score ou Note d'opinion moyenne) montre que:

pour de la parole, cette qualité progresse de 6,6 kbit/s à 12,65 kbit/s, puis reste à peu près constante jusqu'au débit de 23,85 kbit/s,
à 12,65 kbit/s, elle est quasi équivalente à celle du codeur G.722 utilisé pour la téléphonie fixe en bande élargie,
la différence par rapport au codeur bande étroite AMR est de l'ordre de 1,0 MOS.

Voix HD sur réseau mobile

Pour disposer de la Voix Haute Définition sur un réseau mobile, l’ensemble des éléments, terminal inclus, doit être adapté pour supporter le codeur AMR-WB :

Terminal :

Le chipset équipant le terminal (téléphone ou smartphone) doit bien sûr embarquer le codeur AMR-WB qui doit être inscrit dans la liste des codeurs (codecs) échangée avec le réseau lors de l'établissement d'appel.
De manière à restituer la qualité bande élargie, l'acoustique (microphone et écouteur) et l'électronique doivent être conformes aux critères de la bande élargie tant en ce qui concerne la réponse en fréquence que la distorsion, rapport signal à bruit, etc.

Réseaux :

Le réseau doit reconnaître le codeur AMR-WB et assurer le transport bout en bout des trames codées, ceci sans aucune transformation. L'ensemble des éléments du réseau doit évoluer à cet effet. Tant dans le réseau d'accès (BTS/BSC en 2G, Node B/RNC en 3G, eNode B en 4G) que dans le réseau cœur (MSC-S/MGW).
En particulier pour garantir la transparence au format codé en AMR-WB, doit être supporté le mode TrFO (Transcoder Free Operation) pour les réseaux 3G/UMTS et le mode TFO (Tandem Free Operation) pour les réseaux 2G/GSM. Ces modes garantissent qu'aucune opération n'est effectuée sur le signal codé en AMR-WB au cours de sa traversée du réseau. En particulier le transcodage habituellement appliqué au signal de parole est supprimé pour les appels mobile à mobile.
Dans les réseaux 4G/LTE, les codecs AMR-WB sont utilisés pour le transport de la voix sur les réseaux LTE proposant le service VoLTE (voix sur LTE). Ce service nécessite des smartphones équipés du codec AMR-WB.

Déploiement de la Voix HD

En 2010 40 réseaux mobiles étaient déjà ouverts pour le service Voix HD dans 6 pays : La Moldavie, l'Arménie, la Belgique, la France, l'Espagne et l'Angleterre. Dans son communiqué de presse du 23 novembre 2010^[1], Orange a annoncé la Voix HD sur l'ensemble de son réseau 3G/3G+.

Licences

L’utilisation des codecs AMR (Narrow Band ou Wide Band) n’est pas libre de droit. Leur utilisation dans une application informatique ou un terminal (fixe ou mobile) impose l’acquisition d’une licence.

Notes et références

↑ La Haute Définition mobile a trouvé sa voix orange.com, le 23 novembre 2010, voir archive

Voir aussi

Articles connexes

Lien externe

(fr) Page de la norme sur le site officiel de l'UIT

Portail des télécommunications

[communiqué_presse_20101123-1] La Haute Définition mobile a trouvé sa voix orange.com, le 23 novembre 2010, voir archive

[1]