2: Clés du numérique - Principes
2.1 Normes : Les formats, les résolutions, les supports et les systèmes technologiques sélectionnés sont parties intégrantes de la conservation de l'audio lorsqu'ils souscrivent aux normes internationales établies à des fins d'archivage. Les formats, résolutions et versions hors normes ne pourront à l'avenir s'inscrire dans les dispositions de conservation permettant l'accès à long terme et la future migration de format.
2.2 Taux d’échantillonnage : le taux d’échantillonnage fixe la limite maximum de la réponse en fréquence. Quand il s’agit de produire des copies numériques de séquences sonores analogiques, IASA recommande un taux minimum d’échantillonnage de 48 kHz pour tout document. Cependant, des taux d’échantillonnage plus élevés sont aisément disponibles et peuvent être intéressants pour de nombreux types de contenus. Bien que les taux plus élevés encodent le signal audio au-delà de l’étendue de l’audition, ces dispositions et les technologies de conversion participent à l'amélioration de la qualité audio dans l'étendue fréquentielle idéale de l'ouïe humaine. Les artefacts involontaires et indésirables dans un enregistrement font aussi partie du document sonore, qu’ils soient inhérents à la réalisation de l’enregistrement ou qu'ils aient été ultérieurement ajoutés au signal original suite à l'usure, à une mauvaise manipulation ou au stockage défectueux. Les deux types d'artefact doivent être conservés avec la plus grande exactitude. Pour certains signaux et quelques types de bruit, des taux d’échantillonnage supérieurs à 48 kHz peuvent être avantageux. IASA recommande le taux d'échantillonnage plus élevé de 96 kHz que l'on considèrera comme une indication, non comme limite maximum. Cependant, pour la plupart des documents audio, les taux d’échantillonnage décrits devraient être adaptés. Pour le contenu audio né numérique, le taux d’échantillonnage de la technologie de la version stockage devrait égaler celui de l’original.
2.3 Quantification : la quantification fixe l'échelle dynamique d’un événement sonore encodé ou d'un item. 24 bits encode théoriquement une dynamique qui approche les limites physiques de l’audition, bien que, en réalité, les limites techniques du système soient légèrement moindres. Le signal quantifié en 16 bits, norme CD, peut être incorrect pour saisir la dynamique de nombreux types de signaux, notamment quand des transitoires de niveau élevé sont encodés, par exemple lors du transfert de disques endommagés. IASA recommande un taux d’encodage d’au moins 24 bits pour capturer tous les signaux analogiques. Pour les séquences nées numériques, le niveau de quantification utilisé par le système de stockage devrait au moins égaler celui de l’original. Il est important d'être attentif, lors de l’enregistrement, au fait que le procédé de transfert respecte toute la dynamique.
2.4 Convertisseurs analogique numérique (A/N)
2.4.1 En convertissant le signal audio analogique en un flux de données numériques, le convertisseur A/N ne devrait pas apporter de coloration au son ou ajouter le moindre bruit. Il s'agit de l'élément le plus critique dans les opérations de conservation numérique. En pratique, le convertisseur A/N incorporé dans la carte son d'un ordinateur ne peut respecter les spécifications requises du fait des circuits à bas coût et du bruit électrique inhérent à l'ordinateur. L'IASA recommande l'utilisation de convertisseurs A/N séparés (autonomes), connectés via une interface AES/UER ou S/PDIF, un bus IEEE1394 (firewire) ou une interface série USB, qui assure la conversion du signal audio en conformité avec les spécifications qui suivent. Toutes les spécifications mesurées à la sortie numérique du convertisseur A/N sont conformes à la norme AES (Audio Engineering Society) AES 17-1998 (r2004), IEC 61606-3 et les normes associées identifiées.
2.4.1.1 Distorsion harmonique totale + bruit (Total Harmonic Distorsion (THD+N))
Pour un signal de 997 Hz à -1 dB FS (Full Scale), la THD+N du convertisseur A/N doit-être inférieure à -105 dB non pondérés et -107 dB pondérés dBA, avec une bande passante de 20 Hz à 20 kHz.
Pour un signal de 997 Hz à -20 dB FS, la THD+N du convertisseur A/N sera inférieure à -95 dB non pondérés et -97 dBA, avec une bande passante de 20 Hz à - 20 kHz.
2.4.1.2 Dynamique (rapport signal sur bruit)
La dynamique du convertisseur A/N ne sera pas inférieure à 115 dB non pondérés, pour 117 dBA, (mesurée selon une THD+N relative à 0 dB FS, bande passante 20 Hz - 20 kHz, pour un signal de 997 Hz à -60 dB FS).
2.4.1.3 Réponse en fréquence
Pour une fréquence d'échantillonnage A/N de 48 kHz, la réponse en fréquence sera meilleure que ± 0,1 dB sur 20 Hz-20 kHz.
Pour une fréquence d'échantillonnage A/N de 96 kHz, la réponse en fréquence mesurée sera meilleure que ± 0,1 dB sur l'étendue 20 Hz-20 kHz et ± 0,3 dB sur 20 kHz-40 kHz.
Pour une fréquence d'échantillonnage A/N de 192 kHz, la réponse en fréquence mesurée sera meilleure que ± 0,1 dB sur 20 Hz-20 kHz et ± 0,3 dB sur 20 kHz-50 kHz (signal audio de référence -997 Hz, amplitude -20 dB FS).
2.4.1.4 Distorsion d'intermodulation (Intermodulation Distorsion (IMD)) (SMPTE/DIN/AES17)
Le convertisseur A/N IMD n'excèdera pas -90 dB (AES17/SMPTE/DIN séquences test à deux tons, combinaison de deux fréquences équivalente à une onde sinusoïdale d'amplitude pleine échelle).
2.4.1.5 Amplitude linéaire
Le convertisseur A/N affichera une linéarité de l'amplitude de ± 0,5 dB sur l'échelle -120 dB/-0 dB FS (stimulus sinusoïdal de 997 Hz).
2.4.1.6 Signaux harmoniques parasites
Réponse inférieure à -130 dB FS avec un signal stimulus de 997 Hz à -1 dBFS.
2.4.1.7 Précision de la fréquence d'échantillonnage de l'horloge interne
Pour un convertisseur A/N synchronisé avec son horloge interne, la précision de fréquence de l'horloge mesurée en sortie du flux numérique sera d'au moins ± 25 ppm (parties par million).
2.4.1.8 Jitter
Jitter de l'interface mesuré à la sortie A/N < 5 ns.
2.4.1.9 Synchronisation externe
Lorsque l'horloge du convertisseur A/N est synchronisée avec un signal de référence externe, le convertisseur A/N doit réagir de manière transparente aux variations du taux d'échantillonnage de ± 0,2 % du taux d'échantillonnage nominal. Le circuit de synchronisation externe doit effectuer une réjection du jitter entrant afin que l'horloge synchronisée au taux d'échantillonnage soit exempte de tout artefact et perturbation.
2.4.2 Interfaces IEEE1394 et USB Audio. De nombreux convertisseurs A/N sont à présent équipés pour être connectés directement à l'ordinateur hôte via l'interface grande vitesse IEEE1394 (firewire) et l'interface série USB 2.0. Les deux systèmes servent d'interface de transmissions audio sur les principales plateformes d'ordinateur personnel, ce qui permet d'éviter l'installation d'une interface spécifique dans le châssis de l'ordinateur (carte son de haute qualité). La qualité audio est généralement indépendante de la technologie de bus utilisée.
2.4.3 Sélection des convertisseurs A/N : Le convertisseur A/N est le composant technologique le plus critique des processus de conservation numérique. Au moment de choisir un convertisseur, avant d'entreprendre toute évaluation, l'IASA recommande que la totalité des spécifications soient conformes aux normes de référence décrites ci-dessus. Un convertisseur qui ne respecte pas les spécifications techniques établies par IASA produira des conversions plus qu'inexactes. Conjointement à l'évaluation technique, des tests statistiques d'écoute en aveugle devront être menés sur un petit nombre de convertisseurs pour déterminer leurs capacités et leurs performances. L'ensemble des spécifications et des tests décrits ci-dessus sont rigoureux et complexes, ils sont d'une grande importance pour sélectionner et évaluer les convertisseurs. Parfois, la comparaison des spécifications publiées par les fabricants de matériel relève d'un défit car elles sont souvent incomplètes et quelquefois difficiles à concilier avec les performances des machines qu'elles sont censées représenter. Afin d'optimiser leurs ressources, certains organismes peuvent convenir de se regrouper ou de constituer des panels pour effectuer des tests. Certaines institutions, telles que les bibliothèques et archives nationales, les structures de sciences académiques, peuvent être bien placées pour aider la mise en place de tels tests.
2.5 Cartes son : Les cartes son utilisées dans un ordinateur dédié à la conservation de programmes audio devront avoir une sortie numérique fiable, être dotées d'un dispositif de synchronisation du flux audio numérique de haute qualité, et faire passer le flux de données audio numériques sans provoquer de modification ou d'altération. Puisqu'un convertisseur A/N autonome doit être utilisé, la première fonction d'une carte son pour la conservation de contenus audio est de faire passer un signal numérique par le bus de données de l'ordinateur, bien que la carte puisse également être utilisée pour convertir le signal en mode analogique pour effectuer des contrôles. Il faudra prendre soin de choisir une carte qui accepte le taux d'échantillonnage et la quantification appropriés, qui n'injecte pas de bruit ou autre artefact extérieur. IASA recommande l'utilisation d'une carte son de haute qualité satisfaisant aux spécifications suivantes :
2.5.1 Taux d'échantillonnage : 32 kHz à 192 kHz ± 5%.
2.5.2 Quantification audio numérique : 16-24 bits.
2.5.3 Variation de vitesse : automatique par signal audio entrant ou wordclock (horloge de référence).
2.5.4 Synchronisation : horloge interne, wordclock, entrée audio numérique.
2.5.5 Interface audio : AES/EBU à vitesse élevée selon spécifications AES3.
2.5.6 Jitter admissible et récupération du signal d'entrée jusqu'à 100 ns sans erreur.
2.5.7 Sous-code audio numérique.
2.5.8 Entrées optionnelles de temps codé (time code).
2.6 Systèmes informatiques et logiciels de traitement : Les ordinateurs de générations récentes sont assez puissants pour manipuler des fichiers audio volumineux. Une fois entrés dans le domaine numérique, l’intégrité des fichiers audio doit être assurée. Comme indiqué ci-dessus, les phases critiques du processus de conservation concernent la conversion analogique-numérique (qui dépend du convertisseur) et l’entrée des données dans le système via la carte son ou un autre port. Cependant, certains systèmes sectionnent les mots d'une séquence pour la traiter, générant une baisse du débit numérique, tandis que d’autres n'effectuent que des compressions de fichiers, tels que MP3 : aucun n'est acceptable. L'IASA recommande d’utiliser un ordinateur audio professionnel dont la longueur de mot de traitement excède celle du fichier (c’est-à-dire supérieure à 24 bits) et qui n’altère en rien le format du fichier.
2.7 Réduction de données : Dans le monde de l'archivage audio, il est maintenant généralement admis que lorsqu'on sélectionne un format numérique cible, ceux qui effectuent une réduction de données (souvent appelée à tort « compression ») fondée sur le codage perceptuel (codecs avec perte) ne doivent pas être utilisés. Transférer avec ce type de réduction signifierait la perte irrémédiable d’une partie de l’information primaire. De telles réductions de données peuvent conduire à une qualité d'écoute identique ou très proche de celle produite par le signal non compressé (linéaire), du moins pour la première génération, mais l'utilisation ultérieure des signaux ayant fait l'objet de réduction sera strictement limitée concernant des documents d'archives dont l'intégrité a été compromise.
2.8 Formats de fichier :
2.8.1 De nombreux formats de fichiers audio linéaires sont disponibles pour encoder les signaux ; néanmoins, un format largement adopté et répandu dans le milieu audio professionnel aura plus de change d'être utilisé à long terme et offrira une meilleure disponibilité des outils nécessaires pour effectuer des migrations vers de futurs formats de fichiers le moment venu. En raison de la simplicité et de la généralisation du format Pulse Code Modulation (PCM) linéaire (entrelacé pour la stéréo), IASA recommande l’utilisation du format WAVE (extension .wav) développé par Microsoft et IBM, issu de l'extension du format Resource Interchange File Format (RIFF). Les fichiers Wave sont très largement utilisés dans l'industrie audio professionnelle.
2.8.2 Les fichiers BWF.wav [EBU Tech 3285], extension des fichiers .wav, sont supportés par les technologies audio les plus récentes. Ce format BWF présente l'avantage, à la fois pour les documents d'archives et de production, de permettre l'incorporation des métadonnées dans les en-têtes, partie intégrantes des fichiers. Dans le cadre des scénarios d'échanges et d'archivage de documents les plus courants, cela représente un avantage ; toutefois, le caractère fixe de l'information intégrée peut devenir un handicap pour les systèmes de gestion à la fois de taille importante et sophistiqués (voir discussion chapitre 3 Métadonnées et Ch. 7 Approches à petite échelle des systèmes de stockage numérique). Cette restriction, ainsi que d'autres concernant le format BWF, peut-être surmontée grâce à l'utilisation à minima d'un jeu de données dans BWF, d'autres données étant insérées dans des dispositifs de gestion externe. La norme AES31-2-2006 sur le "Network and file transfer of audio - Audio-File transfer and exchange - File format for transferring digital audio between systems of different type and manufacture" - Transfert du son par réseau et fichiers -Transfert et échanges de fichiers audio - Formats de fichiers pour transférer des données numériques audio entre systèmes de différents types et fabrications " (en langue anglaise [NDT]) est en grande partie compatible avec la norme du format BWF, et il est à espérer que grâce aux futurs développements dans ces domaines, il restera viable. Le format BWF est largement accepté par la communauté des archivistes aussi, gardant bien à l'esprit les réserves énoncées, IASA recommande l'utilisation des fichiers BWF.wav [EBU Tech 3285] à des fins d'archivage.
2.8.3 Le son multipistes, les pistes son film ou vidéo, ou les fichiers audio de longue durée peuvent utiliser le format RF64 [EBU/UER 3306] compatible avec BWF, AES 31 ou bien encore utiliser un fichier wav intégré dans un format d'échange MXF (Media Exchange Format). Ceux-ci étant encore en cours de développement, une approche pragmatique peut consister à créer des fichiers mono BWF de bases temps cohérentes intégrés dans le format tar (tape archive).
2.9 Chaîne audio : Les spécifications de l'ensemble formé par la combinaison de l'équipement de lecture, des câbles, des outils de mixage et de traitement audio devraient égaler ou dépasser celles du son numérique à la valeur d’échantillonnage et de quantification retenue. Les spécifications standards de l’équipement de lecture, de la chaîne audio et du format cible doivent être supérieures à celle du support original.