4: Identificateurs uniques et persistants

4.1 Introduction

4.1.1 Un enregistrement audio numérique stocké sur un système de masse ou sur des supports individuels, doit pouvoir être identifié et récupéré. Un item ne peut être conservé si on ne peut le localiser et le relier au catalogue et au registre de métadonnées qui lui donnent un sens. Chaque item numérique doit être nommé sans ambiguïté de manière unique. Pour garantir l'absence d'ambiguïté et le caractère unique du nommage d'un objet numérique, la première étape d'identification consiste à déterminer ce qui doit être nommé et à quel niveau.
 
4.1.2 Par principe, tout document informatique utilise un système d'identification afin qu'il soit stocké sans provoquer de conflit. Cet identificateur peut être un identificateur public, mais le plus souvent ce n'est pas le cas car, orienté système, il est susceptible de modifications quand le système l'exige. Il est nécessaire de maintenir durablement la capacité de l'identifiant public persistant à accéder à un item,  à le localiser et à le laisser utiliser par ceux qui le souhaitent grâce aux citations et aux liens générés. Il est nécessaire également que cet identifiant joue son rôle vis-à-vis de l'item auquel il se réfère indépendamment de l'endroit où celui-ci est stocké ou du statut du système d'indentification.

4.1.3 Le standard du Cadre de description des ressources : Ressource Description Framework (RDF) est une référence importante pour l'identification d'objets numériques (http://www.w3.org/RDF/). RDF s'appuie sur le concept d'identifications d'objets avec identifiants du Web dénommés URLs (Universal Resource Identifiers : Identificateurs universels de ressource). Les systèmes d'identification sont réalisés grâce à deux mécanismes fondamentaux. Premièrement, le nommage d'un item par la création d'un identifiant à partir d'une sémantique ou d'autres règles d'étiquetage qui relieront l'identifiant à l'item. Dans le standard RDF, de tels identifiants sont dénommés URN (Universal Resource Names : noms universels de ressource). Deuxièmement, l'action du localisateur qui organise le système de localisation de telle manière qu'il soit en mesure de retrouver l'item en instance d'identification. Dans le standard RDF, de tels identifiants sont dénommés URLs (Universal Resource Locator : Localisateur uniforme de ressource).
 
4.1.4 Il existe de nombreux procédés de nommage d'un objet numérique, certains d'entre eux sont spécifiques aux objets audio et audiovisuels, parmi lesquels ceux décrits dans les recommandations techniques EBU / UER R99-1999 "Unique" Source Identifier (USID) : Identificateur source "Unique" utilisé dans le domaine  des <Original Reference>, référence originales du format BWF (Broadcast Wave Format).

4.2 Identificateurs persistants

4.2.1 Sans attendre que les problèmes soulevés par la numérisation n'atteignent un niveau critique, les gestionnaires de bibliothèques, de services d'archives, de collections sonores ont généralement eu tendance à développer des systèmes d'accès aux documents plus ou moins sophistiqués. Ces nombreux systèmes, qui tendent à devenir uniques dans leur propre domaine, peuvent être incorporés dans des procédures de nommage plus générales en ajoutant un nom unique du domaine ou de l'institution. Ce type de structure permet ainsi de bénéficier d'une souplesse maximale pour la gestion de l'identification locale de ses propres ressources, même s'il autorise l'incorporation des identificateurs dans un système global en ajoutant les règles de désignation appropriées. Grâce aux identificateurs persistants, l'utilisateur du contenu peut identifier une œuvre (non un fichier) qui restera une référence immuable de celle-ci, indépendamment des conventions de nommage qui peuvent changer.

4.2.2 Un identificateur persistant (PID : Persistent Identifier) est créé et implémenté de telle manière que les ressources identifiées restent inchangées quel que soit l'emplacement de sa représentation et restent indépendantes du fait que plusieurs copies sont disponibles en différents endroits. Cela signifie que les PID sont des URN (Universal Resource Name).

4.3 Conventions de nommage de fichiers et identificateurs uniques

4.3.1 Des précautions devront être prises pendant les discussions  sur le maintien de la distinction entre l'identificateur persistant qui se réfère à l'œuvre, et les conventions de nommage des fichiers. En fait, de nombreux systèmes peuvent fort bien les mettre en relation l'un avec l'autre. Cette section fournit des recommandations à propos des conventions de nommage de fichiers. Les fichiers gérés dans tout entrepôt peuvent inclure différents types de données, et pas uniquement des données audio. Un identificateur unique (Unique Identifier : UID) identifie une ressource de manière unique. Ceci signifie que l'identificateur peut-être modifié pour des représentations (incarnations, personnifications) de la ressource et que chaque copie de celle-ci aura son propre ID. En conséquence, cela signifie que les UID sont des URL. Pour conduire une telle discussion, les noms de fichiers devront être également considérés comme des identificateurs uniques.     

4.3.2 Afin d'établir des connexions avec un système, en interne ou en externe, l'identificateur unique constitue la clé essentielle permettant de gérer les données audio et de tous leurs fichiers associés, par exemple les copies de master, les copies d'écoute, leurs versions après compression, les fichiers de métadonnées, les listes d'éditions (edit lists), les textes et images associées, les versions de chacun de ces fichiers master et leur dérivés. Par conséquent, à moins que le service d'archives n'utilise un procédé de vidage des identifiants par le système, il est d'importance vitale que la structure de l'identifiant unique soit déterminée de manière logique, qu'elle soit bien comprise par ceux qui doivent l'appliquer, qu'elle puisse être lue par des personnes et des machines. Il est important également d'expliciter les correspondances entre les "familles" de fichiers de données : un commentateur compare cette connexion à un "fil" persistant qui permet aux ressources d'être re-étiquetées ou recousues sur le Web". Parler de "ressource" plutôt que de collections constitue un concept implicite important de ces directives.   

4.3.3 Une manière des plus robustes pour construire un système d'identification révélant ces connexions consiste à l'appuyer sur le concept de Root ID (RID). Le RID est l'identificateur de l'entité. Tous les fichiers et dossiers impliqués dans la représentation de l'entité seront dérivés du RID par l'addition de préfixes ou de suffixes telle que la création d'identificateurs uniques.

4.3.4 Que les identificateurs intègrent de l'intelligence ou non, lorsqu'ils sont générés et lus automatiquement par un système informatique, ils comportent habituellement un code de longueur fixe. Ils offrent les avantages suivants :

4.3.4.1 Ils permettent l'élaboration de règles pour créer de nouveaux identificateurs uniques.
4.3.4.2 Ils garantissent une reconnaissance dépourvue d'ambiguïté par le système (ainsi que pour les utilisateurs au fait des règles).
4.3.4.3 Ils permettent la validation du code ou de ses composantes.
4.3.4.4 Ils apportent leur contribution à la recherche, au tri, aux constatations.

4.3.5 Les mérites relatifs des identificateurs uniques silencieux, intelligents ou expressifs ont fait l'objet de longs débats. La plupart des systèmes attribuent un identificateur silencieux au moment où les données sont sauvées. Ils sont rapidement appliqués, ne nécessitent pas d'intervention humaine, et bénéficient de la garantie de rester uniques. Toutefois, du fait de leur caractère aléatoire et arbitraire, d'autres moyens doivent être trouvés pour préciser la manière dont les fichiers générés lors du cycle de vie d'une ressource numérique sont connectés. Une meilleure manière de procéder passe par l'utilisation d'identifiants intelligents et expressifs.

4.4 Caractéristiques des identifiants

4.4.1 Lors du développement d'un procédé de nommage, on tiendra compte des caractéristiques suivantes :

4.4.1.1 Unicité, le procédé de nommage devra être unique dans le contexte des ressources numériques de l'organisation et, si nécessaire, être globalement unique.

4.4.1.2 Ils devront prendre le parti de la persistance ; une organisation doit s'engager à maintenir l'association entre l'emplacement existant de la ressource et l'identifiant persistant.

4.4.1.3 Un système d'identification sera plus efficace s'il est en mesure de traiter les exigences particulières de différents types de documents ou de collections.

4.4.1.4 Bien que cela ne soit absolument pas critique, ni essentiel vis-à-vis des identificateurs persistants générés automatiquement, un système sera plus efficace s'il est facile à comprendre et à appliquer, s'il se prête bien aux citations courtes et d'utilisation aisée.

4.4.1.5 L'identificateur doit être capable de distinguer les différentes parties d'un item, aussi bien les versions ou les rôles qu'un item numérique peut avoir. Il n'est pas conseillé de se fier à l'extension du fichier pour distinguer une copie de diffusion d'une copie d'archivage : le format peut changer avec le temps, même si le rôle reste le même (Dack 1999).

4.4.1.6 L'identifiant doit permettre le renommage de lots lors de leur entrée dans différents systèmes de gestion de contenus.