3.1 Introduction

3.1.1     Les métadonnées sont des données structurées qui améliorent les opérations sur les ressources, telles la conservation, le reformatage, l'analyse, la découverte et l'exploitation. Elles sont les plus efficaces dans un environnement de réseau internet, mais elles demeurent nécessaires pour tout stockage et conservation de documents numériques. Les métadonnées informent l'utilisateur final (personnes et programmes informatisés) sur la manière dont les données doivent être interprétées. Les métadonnées revêtent une importance capitale en matière de compréhension, de cohérence et de bon fonctionnement pour chacune des confrontations avec l'objet archivé quel que soit l'instant de son cycle de vie et avec tout objet associé ou dérivé de celui-ci.

3.1.2     Il peut être utile de désigner les métadonnées par les termes fonctionnels de "informations structurées renseignant une ressource » : « structurées » parce que lisibles par une machine, [aussi bien que par des personnes] ; « renseignant » parce qu’elles supposent une recherche d’un agent sur la ressource en question ; « ressource » car tout objet identifiable peut  avoir des métadonnées qui lui soient associées" (Dempsey 2005). De telles informations structurées (ou  codées) renseignant des ressources (mentionnées également par métadonnées d'instance) peuvent être très simples, comporter un identifiant uniforme de ressource (Uniform Resource Identifier (URI) avec une simple paire de parenthèses angulaires <> pour containeur ou programme wrapper, et un namespace. Habituellement, les représentations peuvent se développer de manière très élaborée et devenir modulaires, comporter de nombreux containeurs emboîtés, plusieurs couches de wrappers, chacun d'entre eux s'appuyant sur un modèle de namespace et assemblés à différentes phases du workflow (flux d'information) pendant une période prolongée. Une personne ne pourrait qu'exceptionnellement créer en une session  les métadonnées d'instance définitives et complètes d'un objet numérique permanent.
    
3.1.3     Quelle que soit la manière dont les nombreuses versions de fichiers audio peuvent être créées au fil du temps, toutes les propriétés significatives des fichiers d'archivage doivent rester inchangées. Le même principe s'applique pour toute métadonnée embarquée (voir paragraphe 3.1.4 ci dessous). Toutefois, les données de n'importe quel objet peuvent être modifiées dans le temps : nouvelles informations disponibles, changement d'avis, modification de la terminologie, décès de contributeurs, expiration ou renégociation des droits. Par conséquent, il est souvent conseillé de bien séparer tout ou partie des fichiers audio des fichiers de métadonnées, d'établir des liaisons entre ceux-ci, d'effectuer des mises à jour des métadonnées chaque fois que des informations et des ressources sont disponibles. Bien que lourde, l'opération d'éditing des métadonnées d'un fichier est possible. Pour les plus grandes collections, elle ne devrait pas s'intensifier si les démarches sont bien adaptées. En conséquence, l'extension dans laquelle les données sont intégrées aussi bien dans les fichiers que dans des systèmes de gestion de données séparées, sera déterminée par la taille de la collection, par le degré de complexité du système considéré et par les capacités du personnel du service d'archives.  

3.1.4     Les métadonnées peuvent être intégrées aux fichiers audio, ce qui constitue une solution acceptable telle que suggérée pour une approche à petite échelle de systèmes de stockage numérique (voir paragraphe 7.4 Métadonnées élémentaires). Le format Broadcast Wave Format (BWF) normalisé par l'Union Européenne de Radiodiffusion (UER /EBU) constitue un exemple d'intégration de métadonnées audio qui permet le stockage d'un nombre limité de données descriptives dans le fichier .wav (voir paragraphe 2.8 Formats de fichiers). Un des avantages du stockage de métadonnées dans le fichier sera d'écarter les risques de perte des liens entre les métadonnées et les contenus  audio numériques. Le format BWF supporte l'acquisition des processus de traitements des métadonnées ainsi que de nombreux outils associés. Il peut en outre accueillir les données et nourrir la partie du format  global BEXT (extension radiodiffusion). Par conséquent, les métadonnées peuvent inclure l'historique de codage, qui est grossièrement défini dans la norme BWF, ce qui permet de renseigner le processus ayant conduit à la création de l'objet audio numérique. Ceci présente des similitudes avec les événements relevés dans les recommandations PREMIS (voir 3.5.2, 3.7.3 et Fig. 1). Lors des opérations de numérisation de sources analogiques, le format global BEXT peut aussi être utilisé pour stocker des informations qualifiant le contenu audio pendant la création d'un objet numérique à partir d'une source numérique, de CD ou DAT par exemple, le format global BEXT peut être utilisé pour enregistrer les erreurs susceptibles de se produire lors du processus d'encodage.

A=<ANALOGUE> Information sur le parcours du signal audio analogique
A=<PCM> Information sur le parcours du signal audio numérique
F=<48000, 44100, etc.> Fréquence d'échantillonnage [Hz]
W=<16,18,20,22,24, etc.> Longueur de mot [bits]
M=<mono, stereo, 2-channel> Mode d'enregistrement
T=<free ASCII-text-string> Texte commentaires
Historique de codage : BWF (http://www.ebu.ch/CMSimages/en/tec_text_r98-1999_tcm6-4709.pdf)

A=ANALOGUE, M=Stereo, T=Studer A820;SN1345;19.05;Reel;AMPEX 406
A=PCM, F=48000, W=24, M=stereo, T=Apogee PSX-100;SN1516;RME DIG196/8 Pro
A=PCM, F=48000, W=24, M=stereo, T=WAV
A=PCM, F=48000, W=24, M=stereo, T=2006-02-20 File Parser brand name
A=PCM, F=48000, W=24, M=stereo, T=File Converter brand name 2006-02-20;08:10:02

Fig. 1 National Library of Australia : interprétation de l'historique de codage de la conversion d'un original sur bande en bobine libre au format BWF utilisant une base de données et des systèmes automatiques.

3.1.5    La Bibliothèque du Congrès (Library of Congress) a réalisé des travaux sur la formalisation et le développement des différents types de données brutes des fichiers BWF. Embedded Metadata and Identifiers for Digital Audio Files and Objects (Métadonnées et identifiants de fichiers et objets audio numériques intégrés) : les recommandations pour les fichiers WAVE et BWF actuels (Recommendations for WAVE and BWF Files Today) constituent la dernière ébauche proposée aux commentaires, http://home.comcast.net/~cfle/AVdocs/Embed_Audio_08103.doc. Le projet AES X098C constitue un autre développement de la documentation des modalités et de la provenance des métadonnées.

3.1.6    Il existe toutefois de nombreux avantages à maintenir la séparation des métadonnées et des contenus en utilisant par exemple une structure standard telle que METS (Metadata Encoding and Transmission Standard voir paragraphe 3-8 Métadonnées structurelles - METS). Il est plus simple de mettre à jour, de maintenir et de corriger des métadonnées dans le cas d'un entrepôt séparé. L'extension des champs de métadonnées réalisée pour incorporer de nouveaux critères, de nouvelles informations, est possible uniquement dans le cas d'un système présentant cette souplesse. Afin de pouvoir partager des informations de différentes manières, un entrepôt séparé est nécessaire ; des métadonnées pourront ainsi être créées et utilisées par un tel système. Pour des collections de plus grande taille, la charge consistant à maintenir les métadonnées uniquement dans les en-têtes des fichiers BWF serait insoutenable. MPEG-7 nécessite la séparation des contenus audio et des métadonnées descriptives, même si les descriptions peuvent être multiplexées avec les contenus en tant que segments alternatifs de données.

3.1.7    Il est possible évidemment d'envelopper un fichier BWF avec des métadonnées encore mieux renseignées, la disponibilité des informations conservées dans BWF est établie mais limitée, cette approche présente l'avantage des deux approches. Un autre exemple d'intégration est donné par les marqueurs (tags) de métadonnées qui doivent être présents dans les fichiers de contrôle d'accès afin que l'utilisateur soit en mesure de vérifier que l'objet téléchargé ou sur le point d'être consulté en mode streaming est bien l'objet repéré et sélectionné. ID3, le marqueur utilisé pour les fichiers MP3 décrivant le contenu de l'information, est lisible et interprété par la plupart des lecteurs, il permet de disposer d'un jeu minimum de métadonnées descriptives. L'encodage METS a été examiné en tant que possible containeur à la fois des métadonnées d'empaquetage et des contenus, même si la taille potentielle de tels documents laisse à penser qu'une telle option n'est guère viable.
       
3.1.8    Pour séparer les métadonnées des contenus (avec redondance possible si ces derniers contiennent un certain nombre de métadonnées), une solution générale se dessine à partir des travaux entrepris par plusieurs universités en relation avec les principales firmes industrielles tels que SUN Microsystems, Hewlett-Packard et IBM. Le concept consiste toujours à stocker la représentation d'une ressource au moyen de deux fichiers regroupés : un fichier comportant les "contenus", l'autre les métadonnées associées à ce contenu. Ce deuxième fichier comprend :
       
3.1.8.1  La liste des identifiants pour chaque motif logique. Il s'agit en fait d’une série d'"alias" relatifs à l'URN et de la représentation localisée de la ressource (URL).

3.1.8.2  Les métadonnées techniques (bits par échantillon / taux d'échantillonnage ; définition  précise du format ; l'ontologie associée éventuellement).

3.1.8.3  Les métadonnées factuelles (Coordonnées GPS / Temps codé universel / Numéro de série des équipements / Opérateur / ...).
    
3.1.8.4  Les métadonnées sémantiques.

3.1.9  En résumé, la plupart des systèmes adoptent une approche pratique conçue avec des métadonnées à la fois incorporées aux fichiers et maintenues à part, établissant des priorités (i.e. ce qui constitue la source primaire d'information) et des protocoles (règles de maintenance des données) afin de préserver l'intégrité des ressources.