4: Identificadors únics i persistents

4.1 Introducció

4.1.1 Tot enregistrament d'àudio digital dipositat en un sistema d'emmagatzematge massiu (disc dur) o en qualsevol suport discret (DAT, CD, etc.) s'ha de poder identificar i recuperar. Un document no es pot considerar preservat si no es pot localitzar ni vincular a un catàleg i a un registre de metadades que li atorgui significat. Tot objecte digital ha de rebre un nom unívoc, sense marge per a l'ambigüitat. En el procés de garantir que l'objecte es troba denominat de manera unívoca, el primer pas per a facilitar-ne la identificació el constitueix determinar com s'anomena i a quin nivell.

4.1.2 Qualsevol registre en un ordinador disposa per naturalesa d'algun tipus de sistema d'identificació que permet l'emmagatzematge sense conflicte. Aquesta identificació es realitza de vegades mitjançant un identificador públic acceptable, però en la majoria de casos els identificadors responen a un sistema informàtic concret i estan subjectes, per tant, a canvis en funció dels requisits d'aquest sistema. Existeix, doncs, la necessitat d'establir un identificador públic persistent capaç de garantir l'accessibilitat, la localització i la presentació d'un document a aquells usuaris que vulguin utilitzar-lo, de manera que qualsevol citació o vincle continuï essent possible gràcies a aquest identificador. En conseqüència, cal que l'identificador apunti correctament a l'ítem amb independència de la seva ubicació (on es trobi emmagatzemat) o del sistema d'identificació que l'apunta.

4.1.3 El Marc de descripció de recursos RDF (Resource Description Framework) és un estàndard de referència en la identificació d'objectes digitals (vegeu http://www.w3.org/RDF/). RDF es basa en el concepte d'identificar objectes mitjançant l'ús d'identificadors en xarxa anomenats URI (de l'anglès Uniform Resource Identifier), identificadors uniformes (o universals) de recursos. En general, els sistemes d'identificació es basen en dos mecanismes principals. El primer implica la denominació d'un ítem mitjançant la creació d'un identificador basat en les regles de la semàntica o altres d'etiquetatge, identificador que en tot cas quedarà vinculat a l'ítem. En l'estàndard RDF, aquests identificadors s'anomenen «noms universals (o uniformes)» del recurs, més habitualment coneguts amb l'acrònim URN, de l'anglès Uniform Resource Name. El segon mecanisme implica un localitzador, fet que comporta l'organització d'un sistema de localització que permeti en tot moment la ubicació del document. En l'estàndard RDF parlarem d'un localitzador universal (o uniforme) de recursos, més conegut amb l'acrònim anglès URL (Uniform Resource Locator).
 
4.1.4 S'han proposat nombrosos esquemes per a la denominació d'un objecte digital, alguns dels quals són específics de l'entorn audiovisual com és el cas de la R99-1999, recomanació tècnica de l’EBU per a la identificació única de recursos (Unique Source Identifier, USID ) que es pot implementar en el camp <OriginatorReference> del format BWF (Broadcast Wave Format). Aquests esquemes es dirigeixen a comunitats concretes i potser per això no han gaudit d'una acceptació universal.

4.2 Identificadors persitents

4.2.1 Fins i tot  abans que el procés de digitalització ho convertís en tasca crítica, les biblioteques, arxius i col·leccions d'àudio han anat desenvolupant sistemes més o menys sofisticats que permeten l'accés als seus materials. Aquests nombrosos sistemes, sovint únics en els seus propis dominis, es poden incorporar a esquemes de denominació més universals mitjançant l'addició d'un nom unívoc per al domini o la institució. Aquest tipus d'estructura permet a l'organització en qüestió la màxima flexibilitat en la tasca de la identificació local dels seus recursos, alhora que possibilita la incorporació dels identificadors locals en un sistema global amb l'addició del component apropiat de denominació d'autoritat. Aquests identificadors persistents permeten a l'usuari identificar una obra (en contrast amb un únic fitxer), identificació de referència que ha de romandre constant en el temps més enllà de potencials canvis en les convencions de denominació dels fitxers que la contenen.

4.2.2 Un identificador persistent (Persistent Identifier, PID) és, doncs, un identificador construït i implementat de manera que el recurs identificat continuï essent el mateix independentment de la ubicació de la seva representació i també del fet que diverses còpies puguin trobar-se en diverses ubicacions. Podem equiparar els identificadors persistents a «nom universal del recurs»,  és a dir, els PID són URN.

4.3 Convencions de nomenclatura de fitxers i identificadors únics

4.3.1 En discutir sobre  aquesta qüestió cal ser curosos en mantenir la distinció entre els  identificadors persistents (PID) emprats en la referència a una obra i  les convencions de denominació dels fitxers digitals que la puguin  compondre. En molts casos pràctics, els sistemes estableixen vincles  entre tots dos. Aquesta secció aporta recomanacions sobre convencions de  denominació de fitxers. Els fitxers de dades que  es gestionen en qualsevol dipòsit digital poden incloure diferents  tipus de dades, no únicament d'àudio. Un identificador únic (de  l'acrònim anglès UID, Unique Identifier) ​​ha d'identificar unívocament un recurs. Això vol dir que l'identificador pot canviar  en funció de la materialització física del recurs i per això cada còpia  del recurs en qüestió tindrà el seu propi UID. Conseqüentment, els UID  són URL. En l'àmbit d'aquesta discussió, els noms de fitxer es  consideraran UID.

4.3.2  Quan en un sistema s'estableixen vincles interns i externs,  l'identificador únic és la clau per a la gestió de les dades d'àudio i  de tots els fitxers associats (siguin còpies màster, còpies de  reproducció, versions comprimides per a accessibilitat, fitxers de  metadades, EDL1,  textos explicatius, imatges, versions de qualsevol dels fitxers màster o  derivats). Per tant, llevat que l'arxiu o institució utilitzi identificadors "muts"2,   assignats automàticament pel sistema, és de vital importància que l'estructura d'identificadors únics es determini de manera lògica, sigui  de comprensió clara per a aquells que hagin d'emprar-la i de fàcil  lectura tant per a persones com per a màquines. També és important que  el sistema d'identificació reveli les connexions entre «famílies» o  fitxers de dades: un revisor compara aquesta connectivitat amb el «fil conductor»  persistent que permet que els recursos puguin ser tornats a  etiquetar o recosits al web. Parlar en termes de "recursos" en lloc de  col·leccions és un concepte important subjacent en aquestes Directrius.

4.3.3  Una de les maneres més potents d'establir un sistema d'identificació  capaç de preservar aquestes connexions és basar-lo en el concepte de  l'Identificador Arrel, de l'anglès Root ID  (RID). El RID és l'identificador d'una entitat. Tots els fitxers i  carpetes involucrats en la representació de l'entitat seran derivats del  RID mitjançant l'addició de prefixos i sufixos fins a la construcció  d’identificadors únics (UID).

4.3.4  Més enllà de la qüestió de si els identificadors aporten o no  informació intrínseca, els identificadors generats i llegibles  automàticament mitjançant ordinadors acostumen a ser codis de longitud  fixa. Aquesta opció ofereix diversos avantatges:

4.3.4.1 Permeten l'establiment de regles per a la creació de nous identificadors únics.

4.3.4.2 Garanteixen el reconeixement unívoc en el sistema (també per als usuaris que coneixen les regles).

4.3.4.3 Permeten la validació del codi o de components del codi.

4.3.4.4 Permeten la recerca, ordenació i presentació d'informació.

4.3.5 Hi ha hagut un llarg debat sobre els mèrits relatius de les opcions d'identificador mut davant l’intel·ligent o expressiu.  La majoria dels sistemes generen d'entrada un identificador mut en el  moment mateix en què les dades es guarden. Els identificadors muts  s'apliquen molt ràpidament, no requereixen intervenció humana i són  garantia d'unicitat. No obstant això, la seva aleatorietat i  arbitrarietat implica la necessitat d'establir mètodes alternatius que  mostrin la interconnexió dels fitxers generats i associats al cicle de  vida d'un mateix recurs digital. Una millor manera de reflectir aquesta  qualitat és mitjançant l'ús d'identificadors intel·ligents o expressius.

 


1  Edit Decision Lists, llistes d'edició (n. dels t.)

2  De l'anglès dumb, identificadors que no aporten intel·ligència o mnemotècnia sobre el recurs identificat (n. dels t.)

4.4 Característiques de l'identificador

4.4.1 En el desenvolupament d'un esquema de noms cal considerar les següents característiques:

4.4.1.1 Unicitat. Cal que l'esquema de noms sigui únic en el context dels recursos digitals de l'organització i, si és necessari, també des d'una perspectiva global.

4.4.1.2 Compromís de persistència. Cal que l'organització es comprometi a mantenir l'associació del PID amb la ubicació actual del recurs (URL).

4.4.1.3 El sistema d'identificació serà més efectiu si és capaç d'acomodar els requisits especials associats a diferents tipus de materials o col·leccions.

4.4.1.4 Encara que no sigui absolutament crític ni essencial per a identificadors persistents generats de manera automàtica (per màquines), un sistema tindrà  en general més èxit si resulta fàcil d'entendre i aplicar i si afavoreix l'existència de cites curtes i fàcils.

4.4.1.5 L'identificador hauria de ser capaç de distingir parts d'un document o objecte, així com les versions i rols que l'objecte digital pugui tenir. Confiar exclusivament en l'extensió del fitxer per distingir una còpia d'accés  d'un màster és una pràctica no recomanable, ja que el format pot canviar amb el temps, mentre que el rol seguirà essent el mateix (Dack, 1999).

4.4.1.6 L'identificador ha de permetre processos per lots3 com ara el canvi automatitzat de noms per a l'ingrés de dades en diferents sistemes de gestió de continguts.

 


  Es troba molt estesa l'expressió en anglès d'aquest concepte, processos en mode batch. (n. dels t.)