3.10 Fuentes de metadatos

3.10.1 Los archivos no deberían pretender crear por ellos mismos, a partir de cero, toda la estructura de metadatos descriptivos (es decir, a la vieja usanza). Dado el ciclo de vida inherente y entrelazado entre recursos y metadatos, tal idea resulta impracticable. Existen diversas fuentes de metadatos, especialmente en lo concerniente a metadatos descriptivos, que deben explotarse con el fin de reducir costes y generar riqueza a través de la diversificación de las tipologías de entrada. Hay tres principales fuentes de metadatos descriptivos: profesionales, contributivas e intencionales (Dempsey). Las tres pueden ser desplegadas en paralelo.

3.10.2 Las fuentes profesionales se alimentan del valor perenne de las bases de datos históricas, ficheros de autoridad y vocabularios controlados, útiles para materiales publicados o replicados. Incluyen bases de datos industriales, así como catálogos de archivo. Tales fuentes, especialmente catálogos de archivo, son notoriamente incompletos e incapaces de interoperar sin la ayuda de sofisticados programas de conversión y complejos protocolos. En la industria de la radiodifusión y la grabación —en el sector audiovisual clásico en general— hay casi tantos estándares en activo como bases de datos independientes. La falta de un identificador universal para el sector audiovisual, como es el código ISBN para el sector del libro impreso, es un continuo obstáculo, y tras décadas de desarrollo discográfico no existe todavía consenso sobre qué constituye un ítem de catálogo: la unidad intelectual ¿es una pista individual, o bien una secuencia de pistas, como sucede con una obra musical o literaria dividida en varias secciones? ¿Es el conjunto de pistas en un soporte único o en un conjunto de soportes, en otras palabras, es el soporte físico la unidad de catalogación? Evidentemente, una agencia que haya optado por una definición de mayor detalle encontrará mucho más sencilla y exitosa la exportación de sus metadatos históricos a su nueva infraestructura de metadatos. Las exportaciones de datos doblemente cautas basadas en Z39.50 (http://www.loc.gov/z3950/agency, protocolo para la obtención categorizada de información) y SRW/SRU (protocolo para la búsqueda y obtención de información vía URLs estandarizadas, con respuesta estandarizada en XML) continuarán aportando un cierto grado de éxito, como lo hará la habilidad de los ordenadores para recolectar metadatos a partir de un recurso central. Sin embargo será más efectivo apostar por la producción compartida de recursos que identifiquen y describan nombres, materias, lugares, periodos de tiempo y obras.

3.10.3 Las fuentes contributivas se alimentan del contenido generado por los propios usuarios. Un fenómeno destacable en los últimos tiempos es la aparición de muchos sitios en internet que promueven la generación, agregación y extracción de datos por parte de usuarios, y se sirven de esos datos para priorizar, recomendar y relacionar recursos. Entre estos encontramos, por ejemplo, YouTube y LastFM. Tales sitios web son valiosos por el hecho de revelar relaciones entre gente y entre gente y recursos, así como información sobre los recursos mismos. Las bibliotecas han empezado a experimentar con estas propuestas y se vislumbran ventajas palpables en el hecho de permitir a los usuarios el desarrollo de metadatos procedentes de fuentes profesionales. La llamada web 2.0, con sus características orientadas a facilitar la contribución y sindicación de datos por parte de los usuarios, está convirtiendo estas prácticas en habituales en los sistemas de gestión de contenidos.

3.10.4 Las fuentes intencionales se basan en la recolección de datos a partir del uso reiterado de los recursos, con la intención de mejorar el descubrimiento de los mismos recursos. El concepto se toma prestado del sector comercial: las recomendaciones del portal Amazon, por ejemplo, basadas en selecciones de compra acumuladas. Se pueden usar algoritmos similares para jerarquizar objetos en un recurso. Este tipo de datos son ya un factor clave para el éxito de ciertos sitios web y han abierto el camino para la administración de cantidades ingentes de datos de información compleja.