3.1 Introducción

3.1.1     Metadatos son aquellos datos estructurados que aportan inteligencia en favor de operaciones más eficientes aplicadas a los recursos o fuentes de datos, operaciones como la preservación, la transcodificación, el análisis, el descubrimiento y el uso. Los metadatos ofrecen mayor rendimiento en entornos en red, pero son igualmente necesarios en cualquier entorno de almacenamiento y preservación digital. Los metadatos instruyen a los usuarios, sean éstos humanos o programas informáticos, sobre cómo interpretar los datos. Son cruciales para la comprensión, coherencia y funcionamiento exitoso de cualquier encuentro con un objeto archivado en cualquier momento de su ciclo de vida, así como con cualesquiera objetos asociados o derivados de él.

3.1.2     En términos funcionales, los metadatos pueden considerarse como «declaraciones esquematizadas sobre los recursos: esquematizadas por ser interpretables por máquinas (así como inteligibles por humanos); declaraciones porque implican una afirmación sobre un recurso por parte de un agente particular; recursos porque cualquier objeto identificable puede disponer de metadatos asociados» (Dempsey: 2005). Estas declaraciones esquematizadas (o codificadas), conocidas también como «instancias» de metadatos, pueden ser muy simples, como por ejemplo un identificador universal del recurso (URI)6 definido entre antilambdas <> a modo de contenedor o envoltorio y un espacio compartido de identificadores o nombres.7 Es habitual que los metadatos se vuelvan muy elaborados y adopten un aspecto modular, que comprendan numerosos contenedores dentro de contenedores, envoltorios dentro de envoltorios, cada uno en función de una serie de diferentes espacios de nombres y agrupados en diferentes etapas de un flujo de trabajo y durante un largo periodo de tiempo. Sería de lo más inusual que una sola persona crease, en una única sesión, una instancia de metadatos definitiva y completa para un objeto digital dado.

3.1.3     Independientemente de la cantidad de versiones de un mismo fichero de audio que puedan crearse a lo largo del tiempo, todas las propiedades significativas del objeto archivable deben permanecer inalteradas. El mismo principio vale para los metadatos embebidos en el objeto (ver la sección 3.1.4). Sin embargo, los datos acerca de cualquier objeto pueden cambiar con el tiempo: se descubre nueva información, evolucionan las opiniones y la terminología, los proveedores de información mueren y los derechos expiran o o se renegocian. Por todo ello a menudo es conveniente mantener separados los ficheros de audio y todos o parte de sus metadatos almacenados en ficheros, estableciendo vínculos adecuados entre ellos y actualizando los metadatos a medida que lo hacen la información y los recursos. Aunque es posible editar metadatos embebidos en un mismo fichero de datos, resulta pesado e incómodo, además de poco escalable y poco recomendable para grandes colecciones. La decisión de embeber los metadatos en los mismos ficheros de datos o en sistemas de gestión independientes dependerá en gran medida del tamaño de la colección, del grado de sofisticación del sistema de administración de datos y de la capacidad del personal responsable del archivo.

3.1.4     Los metadatos pueden integrarse en los mismos ficheros de audio, y de hecho esto constituye una solución aceptable para sistemas de almacenamiento digital (DSS - Digital Storage Systems) a pequeña escala (ver la sección 7.4, «Metadatos básicos»). El formato Broadcast Wave Format (BWF), estandarizado por la UER, Unión Europea de Radiodifusión (European Broadcasting Union, EBU), es un ejemplo de integración de metadatos de audio en el mismo fichero de audio. El formato BWF permite el almacenamiento de un número limitado de datos descriptivos dentro del estándar WAVE (fichero .wav - ver la sección 2.8, «Formatos de fichero»). Una ventaja de la opción de embeber los metadatos en el propio fichero reside en minimizar el riesgo de pérdida del vínculo entre metadatos y datos (audio digital) de un mismo objeto. El formato BWF permite la adquisición de metadatos de procesado, y muchas de las herramientas asociadas con este formato pueden adquirir los datos y rellenar con metadatos la parte correspondiente del fragmento 8 BEXT (Broadcast EXTension). Los metadatos pueden incluir la historia del proceso de codificación, vagamente definida en el mismo estándar BWF, con lo que se pueden documentar los procesos que llevaron a la creación del objeto de datos de audio digital. Esto presenta similitudes con la «entidad acontecimiento»9 definida en PREMIS (ver 3.5.2, 3.7.3 y fig.1). En el proceso de digitalización de fuentes analógicas puede usarse el fragmento BEXT de la cabecera del fichero BWF para almacenar información cualitativa sobre el contenido mismo del audio. Cuando se crea un objeto digital a partir de fuentes ya digitales, como DAT o CD, el fragmento BEXT puede destinarse a almacenar el listado de errores que pudieran haberse producido en el proceso de recodificación.

A=<ANALÓGICO> Información sobre el proceso del sonido analógico
A=<PCM> Información sobre el proceso del sonido digital
F=<48000, 44100, etc.> Frecuencia de muestreo [Hz]
W=<16, 18, 20, 22, 24, etc.> Longitud de palabra [bits]
M=<mono, estéreo, bicanal> Modo
T=<cadena de texto libre en código ASCII > Texto para comentarios
Campo para la historia de la codificación: BWF (<http://www.ebu.ch/CMSimages/en/tec_text_r98-1999_tcm6-4709.pdf>)

A=ANALÓGICO, M=Estéreo, T=Studer A820;SN1345;19.05;Bobina;AMPEX 406
A=PCM, F=48000, W=24, M=Estéreo, T=Apogee PSX-100;SN1516;RME DIGI96/8 Pro
A=PCM, F=48000, W=24, M=Estéreo, T=WAV
A=PCM, F=48000, W=24, M=Estéreo, T=2006-02-20 Datos del análisis sintáctico del fichero (parser)
A=PCM, F=48000, W=24, M=Estéreo, T=Datos de conversión del fichero 2006-02-20; 08:10:02

Fig. 1 Ejemplo de interpretación de la historia de codificación de una bobina original convertida a formato digital BWF mediante un sistema automatizado de bases de datos. National Library of Australia.

3.1.5     La Library of Congress ha estado trabajando en la formalización y expansión de varios fragmentos de datos en el fichero BWF. El documento Embedded Metadata and Identifiers for Digital Audio Files and Objects: Recommendations for WAVE and BWF Files Today es la versión más reciente del documento elaborado al respecto, disponible y abierto a comentarios en <http://home.comcast.net/~cfle/AVdocs/Embed_Audio_081031.doc>. El proyecto «AES-X098C: Administrative metadata for audio objects - Process history schema» es otro avance en la documentación de metadatos de proveniencia y procesado de datos.

3.1.6     Pueden hallarse sin embargo muchas ventajas en el hecho de mantener separados contenido y metadatos si se enmarcan en estándares como METS (Metadata Encoding and Transmission Standard - Estándar de codificación y transmisión de metadatos). Los procesos de actualización, mantenimiento y corrección son mucho más simples en un repositorio de metadatos separado de los datos. La ampliación de los campos de metadatos para la incorporación de nuevos requisitos o nueva información solo es posible en sistemas extensibles y separados. La creación de nuevas maneras de compartir información requiere un repositorio aparte de metadatos que pueda ser utilizado por sistemas diferentes. Para grandes colecciones, el lastre de mantener metadatos exclusivamente en las cabeceras de los ficheros BWF resultaría insostenible. Por ejemplo, el estándar MPEG-7 requiere que el contenido de audio y sus metadatos descriptivos estén separados, aunque ciertas descripciones (metadatos descriptivos) puedan ser multiplexadas10 con el contenido en forma de segmentos de datos alternados.

3.1.7      Por supuesto es posible encapsular un fichero BWF con una información de metadatos mucho más completa. Como la información contenida en el fichero BWF es fija y limitada, esta alternativa presenta las ventajas de ambas opciones. Otro ejemplo de integración son las etiquetas (tags) de metadatos necesarias en los ficheros de difusión para verificar que el objeto descargado o transmitido en tiempo real (streaming) es el deseado. Las etiquetas ID3, usadas en ficheros con formato MP3 para describir el contenido de la información e interpretadas hoy en día por la mayoría de reproductores MP3, permiten un conjunto mínimo de metadatos descriptivos. El mismo estándar METS ha sido estudiado como posible contenedor para el empaquetado conjunto de datos y metadatos, aunque el tamaño potencial de estos documentos plantea serias dudas sobre su viabilidad.

3.1.8      Se vislumbra una solución general para la separación de metadatos de su contenido (posiblemente con cierta redundancia si los contenidos incluyen a su vez metadatos) a partir de la tarea desarrollada en distintas universidades vinculadas a su vez con proveedores de la industria informática como SUN Microsystems, Hewlett-Packard e IBM. La idea es almacenar siempre la representación de un recurso mediante dos ficheros vinculados: uno que incluya los «contenidos» y otro que incluya los metadatos asociados al primero. Este segundo fichero incluye:

3.1.8.1    La lista de identificadores según todas las estructuras utilizadas. Se trata de hecho de una serie de «alias» asociados al nombre (URN - Universal Resource Name) y a la localización (URL - Universal Resource Location) del recurso.
3.1.8.2    Los metadatos técnicos (bits por muestra, frecuencia de muestreo, definición precisa del formato, y posiblemente la ontología asociada).
3.1.8.3    Los metadatos objetivos (coordenadas posicionales GPS, código de tiempo universal UTC, número de serie del equipo, operador, etc.).
3.1.8.4    Los metadatos semánticos.

3.1.9      En suma, la mayoría de sistemas deberán adoptar un enfoque práctico que permita a la vez embeber los metadatos en los ficheros de datos y mantenerlos separadamente, estableciendo prioridades (como por ejemplo, cuál de las dos opciones debe ser la fuente primaria de información) así como protocolos (normas para el mantenimiento de los datos) que aseguren la integridad del recurso almacenado.11


6 Del inglés, Uniform Resource Identifier (n. de los t.).
7 Del término informático inglés namespace (n. de los t.).
8 Del inglés chunk, fragmento o porción de metadatos incrustados en la cabecera de un fichero de datos (n. de los t.).
9  Traducción propuesta del inglés event entity en la versión española del diccionario PREMIS (n. de los t.).
10  O sea, alternadas secuencialmente en un fichero digital (n. de los t.).
11  Programas informáticos tales como BWF MetaEdit, desarrollado para la Iniciativa de Directrices para la Digitalización de las Agencias Federales (Federal Agencies Digitization Guidelines Initiative, FADGI) de la Biblioteca del Congreso de EUA, permiten una más fácil administración de los metadatos embebidos en la cabecera BEXT de los ficheros BWF, al presentarlos en formato de hoja de cálculo. BWFMetaEdit se puede descargar en <http://bwfmetadit.sourceforge.net> [último acceso 5 septiembre 2011] (n. de los t.).