Utilisateur:Agfline/Brouillon
Format de données
modifier- La transmission des données se décompose en une suite de blocs.
- Chaque bloc est composé de 192 trames.
- Chaque trame est composée de deux sous-trames, correspondant chacune à un canal audio.
Sous-trame
modifierLa sous-trame est le plus petit élément structurel d'un signal AES3, codée sur 32 bits.
Chaque sous-trame contient un élément de synchronisation (préambule), un échantillon audio, des métadonnées et un bit de parité pour le contrôle de l'intégrité du message.
bits | description |
---|---|
0-3 | Preamble Le préambule est constitué des 4 premiers bits d'une sous-trame. Il permet la synchronisation du signal et l'identification des blocs et sous-trames. Le préambule n'est pas codé en biphase marqué comme le reste du signal et est donc facilement identifiable, tout en évitant le risque de confusion avec les données. |
4-7 | Auxiliary sample bits Les 4 bits de données auxiliaires sont optionnels. Le standard propose un emploi comme canal audio basse résolution supplémentaire (12 bits, 16 kHz), pour un signal de coordination (talk-back). Cet espace de 4 bits peut également servir à étendre le champ de données audio jusqu'à 24 bits. |
8-27 | Audio sample word Les données de l'échantillon audio sont transmises d'abord par les bits de poids faible (LSB) suivis par les bits de poids fort (MSB). Si la source ne peut fournir des données sur 20 bits, les bits de poids faible inutilisés seront mis à la valeur logique "0". Par exemple, pour des données codées sur 16 bits, les bits 8 à 11 seront mis à zéro. |
28 | Validity bit Le bit de validité agit comme un drapeau (flag). Il indique si oui ou non, les données audio véhiculées dans la sous-trame sont valides pour une conversion numérique/analogique immédiate après réception. |
29 | User Data bit Le bit de données utilisateur permet de disposer d'un canal de transmission pour des données annexes optionnelles. Chaque sous-trame véhiculant un bit de ces données, la transmission s'effectue au rythme de la fréquence d'échantillonnage pour chaque canal, avec possibilité d'agréger les deux canaux et ainsi doubler le débit. |
30 | Channel Status bit une fois chaque bit de Statut de Canal de chacune des 192 sous-trames mis bout à bout, on obtient 24 octets d'informations associées à chaque canal. |
31 | Parity bit Le bit de parité permet la détection d'erreurs dans la transmission. Si la somme des 31 premiers bits de la sous-trame est paire, le bit de parité doit être à "0" et à "1" dans le cas d'une somme impaire. |
Préambule
modifierLes 4 premiers bits de chaque sous-trame forment le préambule.
Le préambule ne véhicule pas de données, mais joue le rôle de marqueur, permettant d'identifier les blocs et sous-trames dans le signal[1].
À la différence du reste du signal, le préambule n'est pas transmis selon le codage biphase marqué, de façon à pouvoir représenter un motif distinct et permettre son identification rapide par l'interface de réception[1].
Il y a 3 préambules différents, respectivement nommés X, Y et Z.
- Le préambule X marque le début d'une sous-trame associée au canal 1[2].
- Le préambule Y marque le début d'une sous-trame associée au canal 2[2].
- Le préambule Z marque le début d'un bloc. Il remplace donc dans le préambule X dans la première sous-trame du bloc[2].
Chaque préambule peut être représenté par deux valeurs (motifs), selon l'état (niveau haut, 1 ou niveau bas, 0) du signal au moment de sa transmission.
Préambule | Code en ligne | Correspondance | |
---|---|---|---|
État précédent : 0 | État précédent : 1 | ||
X | 11100010 | 00011101 | Sous-trame 1 (Canal 1) |
Y | 11100100 | 00011011 | Sous-trame 2 (Canal 2) |
Z | 11101000 | 00010111 | Sous-trame 1 (Canal 1) et début de bloc |
Données audio
modifierLe signal audio transmis doit être au format PCM Linéaire, chaque échantillon doit être codé en complément à deux[3]. La taille des échantillons doit se situer entre 16 et 24 bits[4].
La fréquence d'échantillonnage doit être conforme à la recommandation AES5[5] et doit être identique pour les deux canaux[6].
Il n'est pas exclu de pouvoir véhiculer de l'audio non LPCM ou compressé, cependant cette pratique n'est pas définie par l'AES3[7]. Pour ce faire, la SMPTE a défini plusieurs standards :
- SMPTE 337-2008, Format for Non-PCM Audio and Data in an AES3 Serial Digital Audio Interface.
- SMPTE 338-2008, Format for Non-PCM Audio and Data in AES3 - Data Types.
- SMPTE 339-2008, Format for Non-PCM Audio and Data in AES3 - Generic Data Types.
- SMPTE 340-2008, Format for Non-PCM Audio and Data in AES3 - ATSC A/52B Digital Audio Compression Standard for AC-3 and Enhanced AC-3 Data Types.
Données utilisateur
modifierChaque sous-trame véhicule 1 bit de donnée utilisateur pour une capacité de transfert par canal équivalente au nombre de trames par seconde, c'est-à-dire à la fréquence d'échantillonnage[8]. Chaque canal peut véhiculer des données utilisateur différentes, ou bien le débit peut être doublé en regroupant les données des deux canaux[8].
L'AES3 propose plusieurs formats pour les données utilisateur :
- Format de données défini par l'AES18.
- Format de données défini par l'IEC 60958-3.
- Format de données défini par l'AES52 pour le transport d'un identifiant unique (UID), UMID (en) ou UUID.
- Réservé pour l'IEC 62537.
Il est également possible d'employer un format non standard, défini par l'utilisateur. Dans tous les cas, le format employé devra être renseigné dans le statut de canal (octet 1, bits 4 à 7)[9].
Le transfert et l'emploi de données utilisateur est optionnel[9].
Statut de canal
modifierChaque sous-trame véhicule 1 bit de donnée de statut de canal. Une fois regroupés, les 192 bits par canal contenus dans un bloc forment une structure appelée statut de canal[10]. Chaque canal dispose donc de sa structure. Le statut de canal permet de véhiculer des informations sur le signal audio, comme la taille des échantillons, la fréquence d'échantillonnage, etc.[11]
Les 192 bits du statut de canal sont en suite segmentés en 24 octets (192 / 8), de façon à être interprétés[10].
Pour chaque bloc audio, les bits en position 29 sont associés ensembles. Ils forment ainsi pour chaque canal un statut de 192 bits. Celui-ci est généralement représenté comme un ensemble de 24 octets (192/8). Le contenu de l'état du canal est complètement différent entre AES3 et le S/PDIF. Il converge sur une seule donnée qui est le premier bit du premier octet (1 pour AES3 et 0 pour S/PDIF).
Octet | Bits | Description |
---|---|---|
0 | Contrôle élémentaire des données: vitesse d'échantillonnage, compression, phase. | |
0 | La valeur 0 indique que le canal statut est de type S/PDIF, 1 indique que c'est du type AES/EBU. | |
1 | La valeur 0 Indique que le codage du son se fait en LPCM, 1 indique que les données ne sont pas audio | |
2-4 | Indique le type de réduction de bruit appliquée aux données. Généralement mis à 100b (rien). | |
5 | La valeur 0 indique que la source est verrouillée sur un certain temps externe (non précisé), 1 indique que la source n'est pas verrouillée. | |
6-7 | Fréquence d'échantillonnage. Ces bits sont redondants quand le signal est transmis en temps réel (la fréquence est donnée par la fréquence de transmission des données, soit par exemple : une réception de 250 blocs audio par second correspond à un échantillonnage de 48 kHz). 00: fréquence non indiquée. La fréquence se déduit de la fréquence de transmission des données. 01: 48 kHz 10: 44,1 kHz 11: 32 kHz | |
1 | Indique si le flux audio est stéréo, mono ou autres combinaisons. | |
0-3 | Indique la relation des 2 canaux: 0000: mode non indiqué. 0001: mode à 2 canaux. 0010: mode simple canal (mono). 0011: mode primaire/secondaire. Le premier mot est primaire. 0100: mode stéréo. Le premier mot est pour le canal gauche, le deuxième pour le canal droit. 0111: mode simple canal à fréquence d'échantillonnage double. Les 2 mots d'une trame portent des échantillonnages successifs du même canal. La fréquence d'échantillonnage et le double de celle indiquée par l'octet 0. 1000: idem 0100 mais concerne le canal gauche de la stéréo. 1001: idem 0100 mais concerne le canal droit de la stéréo. 1111: mode multiple-canal. | |
4-7 | Indique le format du canal du mot de canal utilisateur: 0000: pas information utilisateur. 0001: structure de 192 bits et le préambule Z indique le début d'un bloc. 0010: réservé pour le standard AES18. 0011: définition utilisateur. 0100: données utilisateurs conforme au format définit par IEC 60958-3. 0101: réservé pour des méta-data | |
2 | Longueur des données audio | |
0-2 | Indique si les bits auxiliaires sont utilisées (bits 4-7 du mot de base). 000: les bits auxiliaires ne sont pas utilisés. Le son est codé sur 20bits. 001: les bits auxiliaires sont utilisés. Le son est codé sur 24bits. 010: les bits auxiliaires sont utilisés pour de la coordination de signal. Le son est codé sur 20bits. | |
3-5 | Indique la longueur effective des données du son. Si les bits auxiliaires sont utilisés pour le son: 000: non indiqué 001: 23bits 010: 22bits 011: 21bits 100: 20bits 101: 24bits. Si les bits auxiliaires ne sont pas utilisés pour le son: 000: non indiqué 001: 19bits 010: 18bits 011: 17bits 100: 16bits 101: 20bits. | |
6-7 | Indique le niveau d'alignement du volume sonore. 00: pas d'alignement. 01:alignement 20dB en dessous du maximum. 10:alignement 18,06 dB en dessous du maximum. | |
3 | Permet d'indiquer si le mode multiple-canal est actif et si oui quel est le numéro de canal actuel. | |
4 | Indications complémentaires sur l'échantillonnage. | |
0-1 | Référence digitale audio (lié à la norme AES11). | |
2 | Réservé. | |
3-6 | Fréquence d'échantillonnage: 1000: 24 kHz 0100: 96 kHz 1100/192 kHz, 1001/22,05 kHz, 0101/88,2 kHz, 1101/176,4 kHz. | |
7 | Indique le ratio à appliquer: 0: pas de ratio. 1: la fréquence d'échantillonnage est 1/1,001 fois ce qui est indiqué par les bits 3-6 de l'octet 4, ou bits les bits 6-7 de l'octet 0. | |
5 | Non utilisé (mis à zéro par défaut) | |
6-9 | Adresse alphanumérique du canal source. | |
10-13 | Adresse alphanumérique du canal destination. | |
14-17 | Numéro du bloc audio sur 32bits. | |
18-21 | Heure de la journée en seconde où le bloc audio a été créé. | |
22 | Indique la fiabilité des données pour les octets du statut du canal. Si la valeur est mise à 1 les données ne sont pas fiables. | |
0-3 | Réservé. | |
4 | octets 0 à 5. | |
5 | octets 6 à 13. | |
6 | octets 14 à 17. | |
7 | octets 18 à 21. | |
23 | CRC sur les octets 0 à 22 du statut (x8+x4+x3+x2+1, initialisé à 1). |
Codage en ligne
modifierLe transfert des données sur le support physique se fait par codage biphase marqué, similaire au Codage Manchester Différentiel. Cependant, chaque sous-trame commence par un préambule de 4 bits qui ne respecte volontairement pas le codage biphase, de façon à être facilement identifiables[1].
| | | | | | | | | | | | | | | | | | | | | | Horloge ___ _______ ___ ___ _| |_______| |___| |_______| |___ Donnée 1 0 0 1 1 0 1 0 0 1 0 _ ___ _ _ ___ _ ___ _ _| |_| |___| |_| |_| |_| |___| |_| |___ Signal 1 0 1 1 0 0 1 0 1 0 1 1 0 1 0 0 1 1 0 1 0 0
Généralités
modifierBien que le format WAVE puisse contenir de l'audio compressé, l'usage le plus courant reste l'association avec l'audio LPCM et c'est pourquoi certains considère — et donc à tort — que le format WAVE est synonyme de format audio « sans perte ».
Le format WAVE est souvent associé à Windows
L'emploi du format WAV est standardisé sous Windows ; son pendant sous la plate-forme Macintosh est l'AIFF/AIFC.
Bien que l'usage le plus courant soit d'associer de l'audio LPCM (non compressé) au format WAVE, celui-ci peut aussi contenir de l'audio compressé. C'est pourquoi le format WAVE est souvent — et donc à tort — synonyme de format audio « sans perte ».
Utilisateur:Agfline/Brouillon2
- mp3
Technique de codage
modifierLa compression s'applique au moyen du choix d'un débit de sortie, allant de 8 kbit/s à 320 kbit/s[12]. Plus le débit est faible, plus la compression est importante et donc la qualité de restitution détériorée.
Codage
modifierLe codage fait correspondre à chaque intervalle sur l'échelle de quantification un code unique conformément à un ensemble déterminé de règles[13].
Le plus souvent, les échantillons quantifiés seront représentés sous forme binaire. Le signal audio analogique évoluant entre valeurs positives et négatives, il convient de trouver une forme de représentation binaire appropriée, il en existe plusieurs :
- Binaire naturel (avec offset)
Il s'agit d'une représentation en binaire naturel classique, mais que l'on "décale" de façon à faire correspondre la valeur 0000 non pas sur 0, mais sur -Vcc. Ainsi, 0 se retrouve sur la valeur binaire intermédiaire, 1000. Cette représentation complexifie les opérations mathématiques appliquées au signal en aval (Traitement DSP), c'est pourquoi on ne s'en sert pas en CAN.
- Binaire réfléchi (Code de Gray)
Lors d'une incrémentation / décrémentation, un seul bit change d'état dans la séquence binaire, ce qui permet entre autre, d'éviter les états transitoires indésirables au sein du circuit. Certains convertisseurs en font un usage interne, avant de le convertir en sortie du circuit.
Le complément à deux est identique au binaire naturel (avec offset), à la différence que celui-ci est signé : Les valeurs négatives sont représentées avec leurs bits de poids fort (MSB) à 1, et les valeurs positives à 0, ce qui s'obtient très facilement dans un convertisseur, à l'aide d'un simple inverseur. Ce codage est très populaire chez les convertisseurs audio[14], de part la facilité de calcul qu'il permettra par la suite (DSP).
Echelle | Bin. (offset) | Code de Gray | Compl. à 2 | Compl. à 1 | Magn. signé |
---|---|---|---|---|---|
+7/8 FS | 1111 | 1000 | 0111 | 0111 | 0111 |
+6/8 FS | 1110 | 1001 | 0110 | 0110 | 0110 |
+5/8 FS | 1101 | 1011 | 0101 | 0101 | 0111 |
+4/8 FS | 1100 | 1010 | 0100 | 0100 | 0100 |
+3/8 FS | 1011 | 1110 | 0011 | 0011 | 0011 |
+2/8 FS | 1010 | 1111 | 0010 | 0010 | 0010 |
+1/8 FS | 1001 | 1101 | 0001 | 0001 | 0001 |
+0 | 1000 | 1100 | 0000 | 0000 | 1000 |
- 0 | 1000 | 1100 | 0000 | 1111 | 1000 |
-1/8 FS | 0111 | 0100 | 1111 | 1110 | 1001 |
-2/8 FS | 0110 | 0101 | 1110 | 1101 | 1010 |
-3/8 FS | 0101 | 0111 | 1101 | 1100 | 1011 |
-4/8 FS | 0100 | 0110 | 1100 | 1011 | 1100 |
-5/8 FS | 0011 | 0010 | 1011 | 1010 | 1101 |
-6/8 FS | 0010 | 0011 | 1010 | 1001 | 1110 |
-7/8 FS | 0001 | 0001 | 1001 | 1000 | 1111 |
Le plus souvent, ce code est un nombre binaire, dont la représentation pe ; plusieurs types de code binaire sont d'usage courant, selon qu'on envisage le signal par rapport à la valeur extrême, sans signe, ou bien à sa valeur médiane, en positif ou en négatif, et dans ce cas, soit avec un bit de signe, soit en complément à 2n.
Tant pour la transmission des codes que pour leur enregistrement magnétique ou optique, il est préférable qu'il n'y ait pas de longues séquences de 1 ou de 0.
- Ces séquences rendent difficile la reconstitution d'un signal d'horloge à partir des transitions.
- En audio, les valeurs extrêmes ne sont que rarement atteintes[a]. Les codes composés entièrement de zéro ou de uns correspondent généralement à ces valeurs extrêmes[b].
La modulation d'impulsion peut se transmettre avec le codage Manchester, qui évite les périodes à niveau constant au prix d'un doublement de la fréquence. Avec un peu plus d'économie, la modulation 8 bits sur 14 bits, utilisée dans le disque compact assure qu'il y a deux, quatre, six, huit ou dix zéros par bloc de quatorze bits représentant chaque octet. Ces codages adaptés à l'enregistrement ou à la transmission des données se ramènent facilement à un tableau de valeurs binaires.
Historique
modifierLe home studio fait son apparition au milieu des années 1980. Peu après l'apparition des synthétiseurs, les musiciens professionnels s'équipent de façon à enregistrer à la maison leurs propres maquettes. On parle alors aussi de project studio.
Vers la fins des années 1980 apparaissent les premiers sampler. Beaucoup considères l'apparition de ces machines comme un tournant dans la démocratisation des moyens de production, une personne seule pouvant alors grace à une seule machine
Puis, vers les années 2000, toujours avec l'évolution de l'informatique, les homes studios pourront aussi prétendre traiter des projets audio destinés à l'audiovisuel, c’est-à-dire, produire de la musique et/ou du son à l'image.
La frontière entre studio professionnel et home studio s'amenuise dans les années 2000 avec l'apparition des surfaces de contrôle, l'évolution des périphériques (Hardware et Logiciels ou plug-ins) qui permettent aux DAW d'offrir un potentiel de traitement plus ou moins équivalent à un vrai studio. Cependant la différence entre home studio et studio professionnel perdure de par la qualité du matériel employé (préamplis, compresseurs, égaliseurs, convertisseurs A/N), le traitement acoustique des différentes cabines d'écoutes et de prises de sons, ainsi que par l'expertise apporté par les ingénieurs du son professionnels.
Au fur et à mesure de l'évolution des matériels informatiques, le home studio se développe et permet de fabriquer et délivrer des musiques ou des programmes audiovisuels définitifs mais entièrement fabriqués « à la maison » et non pas dans un studio d'enregistrement[15].
Vers les années 2010, la possibilité de faire travailler ensemble et de façon synchrone plusieurs ordinateurs dédiés au son et/ou à l'image, avec le principe informatique de la Grappe de serveurs (« cluster ») va encore faire évoluer la façon de produire de la musique ou des bandes sonores pour l'audiovisuel[réf. nécessaire].
- Dans l'enregistrement classique et la diffusion radio et télévision, les valeurs extrêmes ne sont jamais atteintes, de façon à préserver une marge pour les changements de fréquence d'échantillonnage ou de système de compression numérique. La guerre du volume a entraîné, dans les enregistrements de musique populaire, des séquences de plusieurs échantillons aux valeurs extrêmes, en plus des autres procédés destinés à augmenter le volume d'écoute.
- Le zéro, correspondant au silence, au milieu de l'échelle de 0 à 216-1, tombe entre 215-1 et 215, et se code donc par une alternance de un 1 suivi de quinze 0 et de un 0 suivi de quinze 1. Le signal est toujours affecté d'un bruit de fond, qu'on augmente si nécessaire par le dither pour améliorer la reproduction des faibles niveaux, ce qui raccourcit un peu la série de bits identiques.
- (en) AES, « AES3-3-2009 : Part 3 Transport », , p. 9 :
« NOTE Preambles are specific patterns providing synchronization and identification of the subframes and blocks. To achieve synchronization within one sampling period and to make this process completely reliable, these patterns violate the biphase-mark code rules, thereby avoiding the possibility of data imitating the preambles. The preambles have even parity as an explicit property. »
- (en) AES, « AES3-3-2009 : Part 3 Transport », , p. 8 :
« The first subframe in every frame shall start with a preamble type X, except for that at the start of a 192-frame block, when it shall carry a preamble type Z. This defines the block structure used to organize the channel status information. [...] The second subframe shall always start with a preamble type Y. »
- (en) AES, « AES3-1-2009 : Part 1 Audio Content », , p. 5 :
« The audio content shall be coded as linear PCM using 2’s complement code. »
- (en) AES, « AES3-1-2009 : Part 1 Audio Content », , p. 5 :
« The accuracy of the coding shall be between 16 and 24 bits, in two ranges for the purpose of indicating which length is in use in channel status data, 16 to 20 bits and 20 to 24 bits (see Part 2). »
- (en) AES, « AES3-1-2009 : Part 1 Audio Content », , p. 6 :
« The sampling frequency shall be in accordance with AES5-2008. »
- (en) AES, « AES3-1-2009 : Part 1 Audio Content », , p. 6 :
« The sampling frequency shall be the same in both channels. »
- (en) AES, « AES3-1-2009 : Part 1 Audio Content », , p. 6 :
« The interface may alternatively carry data or audio which is compressed or in a different format in place of linear PCM audio, in either channel B or both channels. [...] Such use is not standardized here: provision is only made to protect standard equipment from such use. »
- (en) AES, « AES3-2-2009 : Part 2 Metadata and Subcode », , p. 5 :
« One bit of User data may be carried in each subframe. Different user data may be carried in each channel and may be related to the associated audio or not. Its capacity in kbit/s is therefore equal to the sampling frequency in use, in kilosamples/s, for each channel. User data bits may be used in any way desired by the user. »
- (en) AES, « AES3-2-2009 : Part 2 Metadata and Subcode », , p. 5 :
« User data bits may be used in any way desired by the user. Known possible formats for the user data channel are indicated by the channel status byte 1, bits 4 to 7. Other possible formats may be used and may or may not be standardized in future. »
- (en) AES, « AES3-2-2009 : Part 2 Metadata and Subcode », , p. 6 :
« Channel status information shall be organized in 192-bit blocks, subdivided into 8-bit bytes numbered from 0 to 23. The transmission format shall mark every 192nd frame to show that it carries the first bit of a block. Within each byte, the bits are numbered from 0 to 7, 0 being the first bit transmitted, so bit 0 of byte 0 is the first bit in the block. Where a byte holds a numerical value, bit 0 is the least significant bit. »
- (en) AES, « AES3-2-2009 : Part 2 Metadata and Subcode », , p. 5 :
« NOTE The channel status for each audio signal carries information associated with that audio signal, and thus it is possible for different channel status data to be carried in the two subframes of the digital audio signal. Examples of information to be carried in the channel status are: length of audio sample words, number of audio channels, sampling frequency, sample address code, alphanumeric source and destination codes, and emphasis. »
- (en) « EBU Tech Review 283 - An introduction to MPEG Layer-3 (MP3) », sur ebu.ch, (consulté le )
- CEI, « 704-25-01 codage ».
- Texas Instruments, Cirus Logic
- Une des conséquences de cette évolution sera la disparition de bon nombre de studios musique professionnels.[réf. nécessaire]