6: Formatos de destino y sistemas para la preservación

6.1.1 Introducción

6.1.1.1      La información que sigue sobre gestión, almacenamiento a largo plazo y preservación de audio codificado digitalmente se basa en la premisa de que no existe un medio definitivo ni permanente para el almacenamiento de datos, ni lo existirá en un futuro predecible. Más bien al contrario, los responsables en la administración de archivos de audio digital deberán planificar la puesta en marcha de sistemas de administración y almacenamiento capaces de dar soporte a procesos que impliquen inevitables cambios en los formatos, soportes u otras tecnologías. El grado y dirección del cambio tecnológico es algo sobre lo cual los archivos no tienen control ni apenas influencia. El objetivo y el énfasis de la preservación digital deberá enfocarse hacia la construcción de sistemas sostenibles, mucho más que a potenciales soportes permanentes.

6.1.1.2      La elección de un sistema tecnológico de almacenamiento depende de muchos factores, aparte del coste. Aunque el tipo de tecnología escogido para la preservación de una colección podrá diferir en función de las circunstancias específicas de cada institución, los principios básicos aquí ofrecidos son válidos para cualquier escenario de administración y almacenamiento a largo plazo de audio digital.

6.1.2 Almacenamiento específico de datos o sonido

6.1.2.1      Para gestionar y mantener audio digital de forma eficaz se necesita su transformación a un formato de datos estándar. Formatos de datos son los tipos de ficheros — como .wav, BWF o AIFF — que los ordenadores reconocen. Estos ficheros, a diferencia de los soportes específicos de audio, definen tecnológicamente los límites de su propio contenido y se codifican generalmente de forma que cualquier pérdida de datos pueda ser reconocida y remediada por el sistema principal. La IASA recomienda el uso de BWF tal y como se define en la sección 2.8, «Formatos de fichero».

6.1.2.2      Entre los formatos específicos para la grabación de audio digital debemos reseñar el DAT (Digital Audio Tape) y el CD-DA (Compact Disc-Digital Audio). El formato de casete compacto digital DAT, en otros tiempos muy extendido para grabaciones de campo a 16bits/48KHz, es hoy por hoy un sistema de grabación obsoleto. La IASA recomienda la transferencia de cualquier contenido significativo en cinta DAT a sistemas de almacenamiento más fiables, en consonancia con las orientaciones proporcionadas en la sección 5.5. «Reproducción de soportes digitales magnéticos».
    
6.1.2.3      El disco compacto grabable puede ser utilizado para el registro exclusivo de audio (CD-A o CD-DA) o de formatos de datos (CD-ROM). En el formato CD-DA el audio digital codificado adopta la forma de un flujo lineal y carece por tanto de las ventajas de un fichero cerrado propias de la grabación en CD-ROM. Este último formato almacena sin embargo menos datos en la misma cantidad de espacio. La IASA no recomienda el CD-DA como formato final de preservación de audio. Existen riesgos considerables asociados al uso del disco óptico grabable como formato de destino en cualquiera de sus formatos. Estos riesgos se detallan en el capítulo 8 Discos Ópticos. Los precios cada vez más reducidos, a la par que la creciente fiabilidad de los sistemas de almacenamiento y administración de datos, hacen que las opciones de almacenamiento basadas en medios y soportes específicos, como el CD-R, sean innecesarias o cuanto menos resulten poco económicas.

6.1.3 Principios de la preservación digital

6.1.3.1      Principios de los sistemas digitales de almacenamiento masivo (DMSS)

6.1.3.2      La información ofrecida a continuación se basa en gran medida en aspectos prácticos de las estrategias para la protección de datos planteadas por la UNESCO en su Directrices para la Preservación del Patrimonio Digital.23 El documento original ha sido modificado solo para recoger la posibilidad de sistemas que incorporen copias de seguridad no automatizadas, así como para reflejar las preocupaciones sobre el formato único en la preservación de audio digital. Esta sección se incluye con la amable autorización del autor (Webb 2003:16.13).


23  Versión en español disponible en http://unesdoc.unesco.org/images/0013/001300/130071s.pdf [último acceso noviembre 2011] (n. de los t.).

6.1.4 Aspectos prácticos de las estrategias de protección de datos

6.1.4.1      Para la administración de datos almacenados a largo plazo pueden utilizarse una serie de estrategias estándar razonables que, en su mayoría, asumen que solo necesitamos conservar los datos y no los soportes. Los siguientes puntos reflejan parte de estas estrategias.

6.1.4.2      Asignación de la responsabilidad. Alguien deberá asumir claramente la responsabilidad de la administración del almacenamiento y protección de los datos. Se trata de una responsabilidad de carácter técnico que requiere ciertas capacidades y conocimientos, además de experiencia en gestión. Para poder llevar adelante el almacenamiento y la protección de los datos es preciso disponer de recursos específicos, trabajar en función de un plan apropiado y rendir cuenta de las estrategias adoptadas, independientemente del tamaño de la colección. Así pues, incluso las colecciones más pequeñas requerirán de los conocimientos y la experiencia desempeñados por una persona responsable de la tarea.

6.1.4.3      Infraestructura técnica apropiada para realizar el trabajo. El almacenamiento y la administración de los datos deben llevarse a cabo con sistemas apropiados utilizando los soportes más convenientes. Existen sistemas de gestión de activos digitales o sistemas de almacenamiento de objetos digitales que responden a los requisitos de los planes de preservación. Una vez determinados, los requisitos deben discutirse detenidamente con los posibles proveedores. Los diferentes sistemas y soportes están previstos para responder a necesidades diversas, por lo que cada plan de preservación debe elegir el que mejor se adapte a su propósito.

6.1.4.4      El sistema completo debe disponer de capacidades adecuadas, entre las que se incluyen:

6.1.4.5      Capacidad suficiente de almacenamiento. La capacidad de almacenamiento puede crecer con el paso del tiempo, pero el sistema debe poder gestionar la cantidad de datos prevista durante su ciclo de vida.

6.1.4.6      Capacidad indispensable para duplicar los datos en función de la demanda sin que ocurran pérdidas y para transferirlos a un soporte nuevo o «actualizado» igualmente sin pérdidas.

6.1.4.7      Solvencia demostrada y apoyo técnico para responder rápidamente a los problemas.

6.1.4.8      Capacidad para correlacionar los nombres de ficheros en un sistema de denominación de ficheros adaptado a su arquitectura de almacenamiento. Los sistemas de almacenamiento se forman en torno a objetos que llevan un nombre y, según sus características, utilizan arquitecturas diferentes para organizar los objetos, lo que puede imponer ciertas limitaciones a su denominación dentro del almacenamiento. Por ejemplo, los sistemas de discos pueden imponer una estructura jerárquica de directorio a los nombres de ficheros existentes diferente a la que se utilizaría en un sistema de cinta. El sistema debe permitir —o preferentemente realizar él mismo— la correlación o mapeo entre los nombres de ficheros asignados por el sistema y los identificadores existentes.

6.1.4.9      Capacidad para gestionar el almacenamiento redundante. Dado que los medios digitales muestran un pequeño aunque significativo grado de error, se necesitan copias redundantes de los ficheros en cualquier estadio de la preservación, en especial durante la fase final de almacenamiento.

6.1.4.10   Control de errores. La mayor parte de los sistemas de almacenamiento informáticos poseen un determinado control automático de errores. Puesto que los materiales del patrimonio audiovisual deben conservarse durante largos periodos de tiempo, a menudo casi sin ser consultados por usuarios, el sistema debe ser capaz de detectar los cambios o pérdidas de datos y tomar las medidas apropiadas. La más simple de las estrategias debe ser capaz de alertar a los gestores del patrimonio de problemas potenciales, con tiempo suficiente para poder adoptar las medidas necesarias.

6.1.4.11   La infraestructura técnica debe disponer también de medios para almacenar metadatos y enlazarlos de manera segura con los objetos digitales almacenados. Si se manejan grandes cantidades de datos, a menudo es necesario establecer sistemas de gestión de objetos digitales enlazados con el sistema digital de almacenamiento masivo, pero ubicados aparte, para poder hacer frente a los numerosos procesos necesarios y permitir que los metadatos y las interfaces de trabajo cambien sin tener que cambiar el sistema de almacenamiento masivo.

6.1.5 Filosofía de la sostenibilidad del sistema

6.1.5.1      Cualquier tecnología, sea un equipo o un programa informático, sean formatos o estándares, acaba siendo modificada como consecuencia de las fuerzas del mercado, los requisitos de rendimiento u otras necesidades o expectativas. La tarea del responsable de un archivo de audio, ampliada hoy en día con la preservación de contenido sonoro digital o digitalizado, es trazar una ruta navegable a través de estos cambios tecnológicos de manera tal que el patrimonio de sus colecciones sea preservado para los usuarios presentes y futuros de forma fidedigna y auténtica, con la mayor efectividad y el menor coste posibles.

6.1.6 Planificación a largo plazo

6.1.6.1      La planificación a largo plazo de un archivo de audio digital va más allá de los estándares técnicos aplicables a un sistema de almacenamiento de datos. Los aspectos técnicos deben ser sin duda resueltos, pero para garantizar el acceso ininterrumpido al contenido también son vitales los aspectos sociales y económicos de un sistema de almacenamiento digital en pleno funcionamiento. Toda planificación a largo plazo debería considerar los siguientes aspectos.
    
6.1.6.2      La sostenibilidad de los datos no formateados en bruto: esto es, la retención de la secuencia de bits de datos en su propio orden lógico. Los datos del sistema de almacenamiento deben ser devueltos al sistema sin cambio o corrupción alguna. Los expertos en sistemas informáticos han identificado un considerable riesgo en los procesos de mantenimiento y regeneración de datos, de forma que tan solo un enfoque bien diseñado y gestionado sobre las tecnologías de la información y la comunicación (TIC) permitirá obtener resultados adecuados.

6.1.6.3      Formatos y capacidad de reproducción: los datos digitales solo son útiles en un archivo sonoro si se pueden recuperar como audio en el futuro. La selección misma del formato de fichero asegura que el archivo audiovisual podrá reproducir el contenido de los ficheros de datos, o será capaz de adquirir tecnología disponible para la migración de los ficheros a un nuevo formato. El hecho de descartar la incorporación de algoritmos de compresión de datos facilitará que los procesos futuros de transferencia de formatos se realicen sin alteración del contenido sonoro original.
 
6.1.6.4      Metadatos, identificación y acceso a largo plazo: todos los ficheros de audio digital deben ser identificables y localizables a efectos de uso y evaluación del contenido sonoro que albergan.

6.1.6.5      Archivos sonoros y economía: este punto incluye la existencia, persistencia y viabilidad de las instituciones que dan soporte a los repositorios y sistemas de almacenamiento de datos, así como a aquellas que poseen, gestionan u obtienen rédito del contenido de audio digital almacenado en las primeras. El coste de mantenimiento de una colección de audio digital es creciente y requiere una planificación y un presupuesto que contemplen de modo realista la preservación del patrimonio a largo plazo. El coste de catalogar, conservar y gestionar las colecciones de audio también es creciente. La preservación digital es un concepto a la par económico y tecnológico. Los requisitos de sostenibilidad continua exigen en esencia una fuente de financiación fiable, necesaria para garantizar el apoyo continuado —aunque sea a bajo nivel— al contenido digital y al mantenimiento de los necesarios repositorios, tecnologías y sistemas asociados, por el tiempo que sea necesario.

6.1.6.6      Alternativas de preservación, gestión y almacenamiento: visto que el entorno económico y tecnológico resulta a menudo volátil, se recomienda establecer acuerdos con archivos e instituciones que puedan asumir el almacenamiento de datos en el rol de archivo de último recurso. Estos acuerdos requerirán de cierta estandarización de formatos de fichero y organización de datos, así como en aspectos sociales y técnicos sobre la gestión del contenido.
    
6.1.6.7      Instrumentos, software y planificación a largo plazo: los equipos informáticos, programas y otros sistemas no son elementos a preservar en sí mismos, sino meras herramientas que hacen posible la tarea de preservación del contenido. El software de repositorio DSpace, por ejemplo, no se describe a sí mismo como una solución para la preservación, sino solamente como una utilidad que «proporciona a las instituciones la capacidad sostenible de guardar activos de información y ofrecer servicios a partir de ellos» (DSpace, Michael J. Bass et al.: 2002). El software de repositorio es en sí mismo un instrumento, como lo son los diversos componentes diseñados para permitir por ejemplo la operación, la simplificación de procesos, la automatización y la validación de la recolección de metadatos. La planificación a largo plazo debe ser capaz de modificar o actualizar cualquier sistema sin poner en peligro el contenido.

6.1.7 Definición del objeto digital

6.1.7.1      El fichero de audio es solo una parte de la información que debe preservarse. El modelo de referencia para un sistema abierto de archivo de información (OAIS, Open Archival Information System) identifica cuatro partes o elementos del objeto digital, partes descritas como el paquete de información. Se trata de la información de contenido y la información descriptiva de preservación, agrupadas, que reunidas en la información de empaquetamiento, pueden descubrirse gracias a la información descriptiva.

6.1.7.2      Aunque la información pueda distribuirse a través del sistema de almacenamiento, conviene recordar que el paquete conceptual es la información sonora, la capacidad para reproducir el sonido en cuestión, el conocimiento de su proveniencia y de su descripción y ubicación. Podrán existir también relaciones críticas entre el fichero de audio en particular y otros ficheros de la misma colección. Estas relaciones resultan importantes para el uso del material y por ello deberán conservarse.

6.1.8 Sistema abierto de archivo de información (OAIS)

6.1.8.1      El modelo de referencia para un sistema abierto de archivo de información (OAIS) es un modelo conceptual ampliamente adoptado para sistemas de archivo y repositorios digitales. El modelo de referencia OAIS aporta un lenguaje común y un marco conceptual compartido por bibliotecas digitales y especialistas en preservación. El marco ha sido adoptado como estándar internacional, ISO 14721:2003. Aunque se han señalado ciertas insuficiencias en el detalle que aporta OAIS, el concepto de la construcción de arquitecturas de repositorio en una forma que se corresponda con las categorías funcionales de OAIS es crucial en el desarrollo de sistemas modulares de almacenamiento con capacidad para el intercambio operativo de contenidos. La secciones que siguen en este documento adoptan los principales componentes funcionales del modelo de referencia OAIS con el objeto de facilitar el análisis de los instrumentos de software disponibles y formular las recomendaciones pertinentes para un necesario desarrollo.

6.1.8.2      Existe un número finito de funciones que un archivo digital debe poder realizar para cumplir de forma fiable y sostenible el propósito para el cual fue diseñado. Estas funciones se definen en el modelo funcional de OAIS como Captura, Acceso, Administración, Gestión de datos, Planificación de la preservación y Almacenamiento en Archivo.

6.1.8.3      OAIS define también la estructura de los diversos paquetes de información necesarios para la gestión de datos de acuerdo con su posición en el ciclo de vida digital. Estos son los denominados Paquete de Sumisión de Información (SIP, Submission Information Package), Paquete de Diseminación de la Información (DIP, Dissemination Information Package) y Paquete de Archivo de la Información (AIP, Archival Information Package). Un paquete es la parcela conceptual que engloba los datos, metadatos relevantes e información descriptiva necesaria para un objeto de datos particular. Este objeto es solamente conceptual en el sentido de que los contenidos del paquete pueden hallarse disgregados en el sistema o bien subsumidos en un único objeto digital. OAIS define un paquete de información como la Información de Contenido y su correspondiente Información Descriptiva de preservación, necesaria para facilitar la preservación de la Información de Contenido.

6.1.8.4      El SIP es el paquete de información entregado al sistema para su captura. Contiene los datos a preservar y todos los metadatos necesarios asociados al objeto de datos. El SIP se acepta en el sistema y se utiliza para crear un AIP.

6.1.8.5      El AIP es el paquete de información una vez almacenado y preservado dentro del sistema. Es el paquete de información que el sistema almacena, conserva y mantiene.

6.1.8.6      El DIP es el paquete de información creado para la distribución del contenido digital. En este sistema pueden producirse tres escenarios. En primer lugar está el acceso: para ello el DIP se presentará al usuario final de forma comprensible y útil. En segundo lugar está el intercambio con el propósito del reparto del riesgo. Un archivo puede optar por compartir partes de su contenido con otras instituciones similares u organizaciones cuya función sea el almacenamiento de archivos. En este caso el DIP contendrá todos los metadatos necesarios para llevar a término este objetivo. En tercer lugar está la distribución de contenido a archivos de último recurso. El escenario donde un archivo o institución en particular no disponga de los recursos necesarios para mantener su colección no es tan difícil de imaginar. Un DIP estándar en esta situación permitirá a otros sistemas con arquitectura similar asumir su nuevo papel con la mínima intervención manual.

6.1.9 Repositorios digitales de confianza (TDR) y responsabilidad institucional

6.1.9.1      Las especificaciones técnicas del entorno de almacenamiento digital son parte importante para asegurar que el contenido digital gestionado se mantiene accesible a los investigadores del futuro. Sin embargo, no son por sí mismas garantía suficiente de éxito en esta tarea. La institución que acoge el archivo digital debe ser capaz de asegurar que el contenido que gestiona se mantiene y se cataloga de forma responsable. En 2002, el Research Libraries Group (RLG) y el Online Computer Library Center (OCLC) publicaron de forma conjunta el documento «Trusted Digital Repositories: Attributes and Responsibilities» (TDR, traducible como «Repositorios digitales de confianza: atributos y responsabilidades») que articulaba un marco de atributos y responsabilidades para el desarrollo de los repositorios digitales fiables y sostenibles «requeridos por un archivo para ofrecer la preservación de la información digital de modo permanente o a un indefinido largo plazo».

6.1.9.2      Estos atributos incluyen la conformidad con el modelo de referencia de OAIS, la viabilidad organizativa, sostenibilidad financiera, idoneidad tecnológica y procedimental, la seguridad del sistema y la existencia de políticas apropiadas para garantizar la puesta en práctica de las medidas adecuadas para la gestión y preservación de los datos.

6.1.9.3      El reflejo práctico de todo lo dicho es el documento «Trustworthy Repositories Audit and Certification (TRAC): Criteria and Checklist» (2007, traducible como «Certificación y auditoría de repositorios de confianza: criterios y listado de verificación»). Mediante este documento, un archivo puede decidir hasta qué punto las prácticas, enfoques y tecnologías en uso o en proyecto son apropiadas para la preservación de la información digital custodiada bajo su responsabilidad.

6.1.9.4      El listado de verificación aborda diversos ámbitos sensibles agrupados en tres áreas principales: infraestructura organizativa, administración y tecnologías del objeto digital, seguridad e infraestructura técnica.

6.1.9.5      La infraestructura organizativa se contrasta evaluando la idoneidad de las direcciones tomadas y la viabilidad organizativa, la estructura de la organización y su plantilla, los procedimientos contables y los planes de empresa, la sostenibilidad financiera y la consideración de las licencias y compromisos adquiridos. El área de control de la gestión del objeto digital evalúa la adquisición de contenido, la creación de paquetes para archivo, la planificación de la preservación, la planificación del almacén de archivo, la gestión de la información y el control de acceso. La tercera y última área de la lista de verificación audita la infraestructura del sistema, el uso de tecnologías apropiadas a la tarea y la seguridad del sistema y de la institución misma.

6.1.9.6      La terminología utilizada en «Trustworthy Repositories Audit and Certification (TRAC): Criteria and Checklist» pretende abarcar los archivos digitales en el sentido más amplio del término. Por ello, el significado del documento puede resultar ocasionalmente oscuro para el archivista de audio. Sin embargo, los aspectos que el documento examina y evalúa son cruciales para la planificación y administración de un archivo de audio digital. Se recomienda encarecidamente su uso por parte de los responsables del archivo de audio digital a fin de examinar la idoneidad de la institución para gestionar una colección digital, así como para identificar las posibles debilidades en su actual estrategia de preservación digital.

6.1.10 Archivos de sonido y responsabilidad técnica

6.1.10.1    Por mucho que una institución sea responsable de la administración de una colección o un grupo de objetos de audio, de ello no se deriva necesariamente que se responsabilice del mantenimiento del sistema de almacenamiento digital. La institución puede optar por incorporarse a un sistema distribuido de almacenamiento, o adoptar los servicios de un proveedor externo para archivar su colección de una forma más estandarizada.

6.1.10.2    La opción del almacenamiento distribuido de datos, como el que promueve y desarrolla para material ubicado en la red la Universidad de Stanford bajo el nombre de LOCKSS (Lots of Copies Keep Stuff Safe - «muchas copias mantienen las cosas seguras») replica los datos en diferentes puntos de la red. El sistema maneja los datos desde la red y el riesgo de pérdidas se reduce por el hecho de que la información puede ser recuperada desde muchos lugares distintos. Este sistema no es apropiado para material con acceso restringido o sujeto a derechos de copyright que prohíban su difusión. Por otra parte el sistema requiere el apoyo de una institución en lo que a responsabilidad sobre su administración y desarrollo se refiere.

6.1.10.3    Una institución puede declararse técnicamente incapaz de asumir el desarrollo y la gestión de un sistema de almacenamiento digital. En este caso podrá si lo desea establecer relación con un proveedor externo. Este proveedor podrá ser otro archivo, que adoptará y almacenará la colección del primero, o bien un proveedor comercial que se hará cargo de la gestión y el almacenamiento de los datos a cambio de una tarifa.

6.1.10.4    La información que sigue supone la intención por parte de una institución de llevar a cabo su propio programa de preservación. Sin embargo, aun apostando por alguna de las alternativas apuntadas más arriba, esta información será útil para determinar si el enfoque adoptado es fiable y válido.

6.1.11 Software de repositorio digital, gestión de datos y sistemas de preservación

6.1.11.1    El software de un repositorio digital es generalmente aquel que da soporte al almacenamiento y acceso al contenido digital. Debería incorporar sistemas de metadatos e indexación que permitan el manejo de información sobre el contenido, así como una variedad de instrumentos para el descubrimiento de contenidos y la generación de informes asociados.

6.1.11.2    La gestión de datos se refiere a la administración del flujo de bits de información que son responsabilidad del sistema. Esto puede incluir procedimientos de copias de seguridad (backups), copias múltiples y cambios.

6.1.11.3    Los procesos de preservación son aquellos que garantizan que el contenido seguirá siendo accesible a largo plazo, que seguirá teniendo significado y que las tareas de gestión de datos llevadas a cabo por el sistema serán documentadas y mantenidas. Cada uno de estos tres procesos es necesario para lograr la preservación del contenido a largo plazo.

6.2 Captura

6.2.1 Paquete de sumisión de información (SIP)

6.2.1.1      El SIP es un paquete de información entregado al repositorio y al sistema de almacenamiento digital para su captura. El SIP incluye los datos de audio sujetos a almacenamiento así como todos los metadatos necesarios relacionados con el objeto y su contenido. La captura en el modelo OAIS es el proceso que acepta el contenido y sus metadatos asociados (paquete SIP), verifica el fichero, extrae los datos relevantes y prepara el paquete AIP para el almacenamiento, y asimismo asegura que los AIPs y su Información Descriptiva relacionada queden establecidos dentro del modelo OAIS.

6.2.1.2      Un sistema de preservación y de repositorio digital debería ser capaz de aceptar y validar un fichero de audio. La validación es el proceso encargado de asegurar que los archivos aceptados en el sistema de almacenamiento digital cumplan con ciertos estándares. Los ficheros no estandarizados pueden resultar de difícil utilización en el futuro, cuando los actuales sistemas de reproducción ya no se hallen disponibles. Existen instrumentos para la validación automática de formatos de archivo. Algunos de ellos, disponibles y en continuo desarrollo, son soluciones de código abierto, como JHOVE (JSTOR/Harvard Object Validation Environment).

6.2.2 Formato

6.2.2.1      La IASA recomienda el uso de ficheros .wav o preferiblemente BWF [EBU Tech 3285]. La diferencia entre ambos radica en que BWF contiene un conjunto de cabeceras utilizables para organizar y manejar metadatos. Aunque los metadatos en BWF son adecuados para muchos propósitos, en sistemas más sofisticados y situaciones de intercambio puede resultar necesario un conjunto más completo de metadatos. En estas circunstancias se utiliza a menudo el estándar METS, Metadata Encoding and Transmission Standard. El esquema METS es un estándar para la codificación de metadatos descriptivos, administrativos y estructurales relacionados con los objetos de una biblioteca digital, expresados mediante XML (eXtensible Markup Language). Un paquete METS consta de metadatos y contenido y se utiliza a menudo como estándar de intercambio entre archivos digitales.24

6.2.2.2      Material eXchange Format (MXF) es un formato de contenedor destinado a los medios audiovisuales profesionales y definido por un conjunto de estándares de la SMPTE (Society of Motion Picture and Television Engineers). El formato MXF ha sido mayoritariamente adoptado por la comunidad archivística de vídeo, aunque es capaz también de gestionar audio. Como METS, se trata principalmente de un conjunto de metadatos que «envuelve» el contenido, en este caso, audio. Ambos formatos son muy útiles en el intercambio y gestión de contenido e información entre archivos y repositorios.

6.2.2.3      El formato del paquete SIP dependerá del sistema y el tamaño y complejidad de la tarea. La creación de un archivo SIP resulta razonablemente viable a partir de ficheros .wav, introduciendo de forma manual en el sistema la mayor parte de los metadatos necesarios y adquiriendo a su vez todos los metadatos técnicos necesarios durante el proceso de captura. Esto, sin embargo, solo será apropiado para una colección diminuta. Las colecciones de mayor tamaño, con grandes cantidades de material y procesos de digitalización separados y remotos, deberán construir sofisticados sistemas de captura e intercambio de datos para asegurar la adecuada captura de contenido en los sistemas de almacenamiento de datos. El software de producción y verificación deberá generar muchos de estos datos en forma de ficheros XML estandarizados que puedan ser utilizados a efectos de preservación. La Biblioteca Nacional de Nueva Zelanda, por ejemplo, dispone de un instrumento de extracción de metadatos (The National Library of New Zealand Metadata Extractor tool) basado en tecnología Java que es capaz de extraer metadatos de preservación a partir de objetos digitales y devolverlos en el formato estandarizado XML.


24. Ver sección 3.8 (n. de los t.).

6.2.3 Metadatos de preservación

6.2.3.1      Los metadatos necesarios para la gestión de los procesos de preservación en el estadio de captura son aquellos relacionados con la creación del objeto de audio digital y los cambios de formato que hayan podido ocurrir antes de la captura. De esta forma se preserva la información sobre la proveniencia técnica del objeto, lo que permite establecer un vínculo que puede rastrearse entre la forma presente del ítem y la forma original con la que fue creado.

6.2.3.2      El formato BWF dispone de una recomendación no obligatoria titulada Format for Coding History field in Broadcast Wave Format (Formato para el campo de historia de la codificación en BWF), disponible en http://www.ebu.ch/CMSimages/en/tec_text_r98-1999_tcm6-4709.pdf. Esta recomendación explica cómo describir los cambios a los que hayamos sometido el fichero. El uso local del campo de texto libre en código ASCII permite la descripción del equipamiento técnico o del software utilizado en la creación del objeto de audio digital.

6.3 Almacenamiento de archivo

6.3.1 Paquete de Archivo de Información (AIP)

6.3.1.1      La definición en OAIS del concepto de almacenamiento de archivo incluye los servicios y funciones necesarios para el almacenamiento del Paquete de Archivo de Información (AIP). El almacenamiento de archivo abarca la gestión de datos e incluye procesos como la selección del medio de almacenamiento, la transferencia de AIP s al sistema de almacenamiento, la seguridad y validación de datos, procesos de salvaguarda o backup y restauración de datos, y finalmente la réplica de AIP s sobre nuevos medios.

6.3.1.2      Un AIP, tal y como se define en el modelo de referencia OAIS (CCSDS 650.0-B-1 Reference Model for an Open Archival Information System) es un paquete de información utilizado para transmitir objetos de archivo hacia el sistema de archivo digital, para almacenar objetos dentro del sistema y para transmitir objetos desde el sistema. Un AIP contiene tanto los metadatos que describen la estructura y el contenido de una esencia archivada como la esencia misma. Consta de múltiples ficheros de datos que conforman una entidad empaquetada de forma lógica o física. La implementación de un AIP puede variar de un archivo a otro. En cualquier caso especificará un contenedor que contenga toda la información necesaria para hacer posible la preservación a largo plazo y el acceso a los ítems archivados. El modelo de metadatos de OAIS se basa en las especificaciones de METS.

6.3.1.3      Desde un punto de vista físico, el AIP consta de tres partes: metadatos, esencia e información de empaquetamiento, que conjuntamente forman uno o más ficheros (ver 6.1.7, «Definición del objeto digital»). La información de empaquetamiento puede entenderse como un envoltorio de información que encapsula los metadatos y la esencia.

6.3.2 Conceptos básicos del almacenamiento de archivo

6.3.2.1      El almacenamiento de archivo aporta los medios para almacenar, preservar y ofrecer acceso al contenido archivado. En sistemas de pequeño tamaño el almacenamiento puede ser autónomo y operarse de forma manual, pero en sistemas de mayores dimensiones el almacenamiento se acostumbra a implementar en conjunción con aplicaciones de catalogación, sistemas de administración de activos, sistemas de recuperación de información y sistemas de control de acceso. El objetivo reside en controlar y manejar el contenido archivado, así como proporcionar una manera controlada de acceder a ese contenido.

6.3.2.2      El almacenamiento de archivo debe estar conectado a los dispositivos responsables de la captura y creación del objeto digital a archivar y debe proporcionar una interfaz segura y fiable que pueda ser usada para importar activos al sistema de almacenamiento.

6.3.2.3      Un sistema utilizado para el almacenamiento de contenido de archivo debe ser fiable en diferentes aspectos: debe estar disponible sin interrupciones significativas y debe ser capaz de informar al sistema o al usuario encargado de la importación de contenido sobre el éxito o fracaso de la operación, permitiendo de esta forma a la parte importadora, en caso de éxito, la eliminación de la copia de captura del fichero de archivo. El almacenamiento de archivo debe también ser capaz de preservar durante un largo periodo de tiempo el contenido que gestiona y protegerlo de todo tipo de fallos y desastres.

6.3.2.4      Un sistema de almacenamiento de archivo debería construirse de acuerdo con las necesidades de su propietario funcional. Deberá dimensionarse adecuadamente para llevar a cabo las tareas encomendadas y gestionar la capacidad requerida en operaciones cotidianas. Además, el almacenamiento de archivo deberá proporcionar acceso controlado al contenido que gestiona para aquellos usuarios que tengan permisos o derechos de acceso a dicho contenido.

6.3.3 Sistemas digitales de almacenamiento masivo (DMSS)

6.3.3.1      Un sistema digital de almacenamiento masivo (Digital Mass Storage System, DMSS) está basado en las tecnologías de la información y la comunicación (TIC), diseñado e implementado para almacenar y mantener grandes cantidades de datos para un cierto periodo extendido de tiempo. Estos sistemas aparecen en diversas formas. Un DMSS básico podría ser un ordenador personal con suficiente espacio de disco duro y algún tipo de catálogo que pueda ser usado para supervisar los activos que el sistema posee. Un DMSS más complejo consistirá quizá en un sistema de almacenamiento sobre disco duro y/o cinta y un grupo de ordenadores que controlen dicho sistema. Un DMSS puede contener también diversos niveles o capas de almacenamiento con diferentes características. Un disco duro conectado a través de un canal rápido de fibra puede utilizarse para almacenar temporalmente activos cuyo tiempo de acceso sea decisivo, mientras se opta por un segundo nivel de almacenamiento basado en discos duros de menor coste y rendimiento para material cuyo tiempo de acceso sea de menor trascendencia. Finalmente, el almacenamiento basado en cinta constituirá el nivel más efectivo en relación a su coste.

6.3.3.2      Un sistema de administración jerárquica del almacenamiento (Hierarchical Storage Management, HSM) es la opción más común en sistemas de gran tamaño donde se dispone de diferentes tecnologías de almacenamiento que deben constituir una unidad funcional. El sistema HSM deberá coordinar el rendimiento de estas diferentes tecnologías de almacenamiento. Los sistemas a gran escala también pueden diseminarse geográficamente con el fin de mejorar el rendimiento y la tolerancia a fallos.

6.3.4 Introducción a los tipos y formatos de cinta de datos

6.3.4.1      Lo que sigue es una visión general de algunos de los principales formatos y sistemas de automatización basados en cinta disponibles para el almacenamiento de contenido audiovisual en formato de datos. Las cintas de datos se utilizan únicamente en conjunción con otros componentes de un DMSS. Resulta prudente comenzar esta comparación entre varios tipos de formatos de cinta de datos recordando que no existe el soporte definitivo y que, independientemente de otras consideraciones, los soportes resultarán viables solo mientras sean avalados por los sistemas de datos a los cuales están incorporados.

6.3.5 Rendimiento de la cinta de datos

6.3.5.1      La geometría y dimensiones del formato determinan su funcionamiento. La velocidad de transferencia de datos, un aspecto de su rendimiento, es el producto directo del número de pistas grabadas y leídas de manera simultánea, así como de la velocidad del cabezal de datos, la densidad lineal del medio y la codificación de canal. Las carcasas de cinta físicamente más ligeras y de menores dimensiones pueden, por ejemplo, desplazarse con mayor rapidez en una biblioteca robotizada. La densidad de datos es el producto de:

6.3.5.1.1   los compromisos entre longitud y grosor de la cinta;
6.3.5.1.2   el ancho de pista y la distancia entre pistas;
6.3.5.1.3   la densidad lineal de datos útiles25 para cada pista.


25. En referencia a la carga útil de datos, del inglés payload, carga con rédito (n. de los t.).

6.3.6 Clases de capa magnética

6.3.6.1      Existen dos tipos principales de capas o películas magnéticas: las basadas en partículas26 o las obtenidas por evaporación. Las primeras capas magnéticas para cinta de datos utilizaban óxidos de metales, como las cintas de vídeo, mientras que las más recientes usan partículas de metal (cintas MP, Metal Particles). El hierro puro, con capas de pasivación inerte de cerámica y óxido, se dispersa sobre polímeros aglutinantes aplicados uniformemente sobre una película fina o substrato de PET (tereftalato de polietileno) o PEN (polinaftalato de etileno) el cual, a su vez, aporta estabilidad dimensional y resistencia a la tensión. La capa magnética de algunas de las cintas de mayor densidad disponibles hoy en día se basa en una hoja de metal evaporado de aleaciones de cobalto u otros materiales similares a los de los discos duros. Con ello se consigue una muy alta pureza del material magnético depositado que permite capas más finas. La mayoría de cintas de metal evaporado (cintas ME, Metal Evaporated) tienen una cobertura protectora de un polímero similar al material aglutinante que se encuentra en las cintas MP. Las formulaciones más recientes incluyen además una capa protectora de cerámica. Varias de las primeras cintas del tipo ME han dado fallos por delaminación sometidas a un uso intensivo (Osaki 1993:11).


26, También llamadas a veces «pigmentos» (n. de los t.).

6.3.7 Diseño de la carcasa

6.3.7.1      Se utilizan dos tipos básicos de carcasas: casetes de doble eje, que permiten tiempos de acceso más cortos, y cartuchos de eje único, capaces de ofrecer mayor capacidad por volumen físico.

6.3.7.2      Entre los casetes de doble eje se incluye:

• cinta de ancho 3,81mm, principalmente DDS [derivado del DAT]
• QIC [cartucho de cuarto de pulgada, 1/4”] y Travan
• formatos de 8mm, incluyendo Exabyte y AIT
• DTF
• Storagetek 9840

6.3.7.3      Entre los cartuchos de eje único:

• formatos IBM MTC y Magstar como 3590, 3592 y TS1120
• Quantum S-DLT y DLT-S4
• LTO Ultrium [100, 200, 400 & 800 GB]
• Storagetek 9940 y T10000
• Sony S-AIT

6.3.7.4      No existe un diseño necesariamente superior a otro para el almacenamiento a largo plazo, pues la vida útil del soporte viene determinada por una serie de detalles específicos de cada formato. Por ejemplo, algunos de los cartuchos de eje único y media pulgada (1/2”) tienen guías de gran diámetro dentro de la carcasa que aseguran una mínima fricción y una adecuada conducción de la cinta. Se han experimentado problemas con el mecanismo de enganche en cartuchos viejos de eje único, aunque los diseños más recientes presentan mayor fiabilidad en este aspecto. Algunos casetes de doble eje pueden dejarse aparcados a medio camino del recorrido de cinta, minimizando así el tiempo de rebobinado hasta alcanzar un determinado fichero. Esta práctica se opone a la tradicional aplicada en los archivos audiovisuales, basada en el bobinado completo a baja velocidad antes del almacenamiento para lograr así que solo la cinta inicial de guía (a menudo cinta blanca) se vea expuesta al mecanismo de enhebrado. Generalmente las cintas no incorporan una carcasa herméticamente sellada como las que protegen los discos duros.

6.3.8 Escaneo lineal y helicoidal de cinta

6.3.8.1 Las cintas de datos pueden ser grabadas (escritas) o reproducidas (leídas) mediante un cabezal simple, generalmente descrito como lineal, o bien mediante un cabezal rotatorio o helicoidal. Las cintas lineales suelen albergar un trazado de pistas en forma de serpentina. Se argumenta que el vaivén en el transporte de la cinta puede conllevar un desgaste, el llamado efecto de pulido27. En la práctica, las cintas modernas se diseñan para soportar un alto número de pasadas sin acusar desgaste. Sin embargo, es aún aconsejable acceder a contenidos de uso frecuente desde un disco duro. Las cinta en general, sujeta a descomposición química debido a la hidrólisis y otras causas, tendrá un mejor comportamiento sobre guías y demás partes fijas del transporte a velocidades alrededor de 1-2m/s o quizás mayores, las típicas para formatos con cabezal fijo o lineal. Para formatos con cabezales rotatorios o helicoidales nos encontraremos con altas velocidades relativas entre cinta y cabezal. Estas altas velocidades relativas acrecientan el efecto de «colchón» o «burbuja» de aire entre la superficie de la cinta y los cabezales de lectura/escritura, por mucho que la velocidad lineal de la cinta sobre las partes fijas de guías y cabezales sea mucho menor. De ahí la habitual confusión en este aspecto.


27. Del inglés shoe-shine effect (n. de los t.).

6.3.9 Dispositivos de acceso y elementos de almacenamiento auxiliares

6.3.9.1      Formatos como AIT incluyen memorias MIC (Memory in Cassette) de estado sólido integradas en el cartucho, capaces de almacenar información posicional del fichero de forma similar a la tabla de contenidos (Table of Contents, TOC) de un Disco Compacto (CD) para agilizar la localización de los datos. El formato DTF usa memoria RF.28


28. Digital Radio Frequency Memory, DRFM (n. de los t.).

6.3.10 Obsolescencia de formatos y ciclos tecnológicos

6.3.10.1    La naturaleza misma del almacenamiento de datos conlleva un constante progreso y desarrollo, lo que implica cambios inevitables y una continua obsolescencia. La gestión realista del contenido a largo plazo debe asumir los hechos y construir sobre la continua evolución y actualización del equipo y los medios grabables. Aunque la infraestructura central como el cableado de datos o las bibliotecas de almacenamiento pueda seguir en servicio durante diez o hasta veinte años, las unidades individuales de lectura/escritura y las cintas tienen una vida finita mucho menor. Todos los principales formatos de cintas de datos disponen de planes de desarrollo y proyectan actualizaciones en periodos que van de los 18 meses a los 2 años. La retrocompatibilidad para el acceso exclusivo de lectura se garantiza a veces sobre una o dos generaciones en cualquier familia común de dispositivos. Como resultado, cada generación de dispositivos de cinta y sus medios grabables pueden tener una viabilidad entre los 4 y 6 años, tras los cuales resulta esencial la migración de los datos a un nuevo formato.* También el coste de mantenimiento del equipo propio de los sistemas de almacenamiento masivo tiende a incrementarse notablemente cuando este supera el tiempo de vida útil o el periodo de garantía. Entonces puede resultar difícil la obtención de piezas nuevas de recambio para las bibliotecas o las unidades de cinta, por ejemplo. En el siguiente cuadro se incluye un resumen de los planes de desarrollo de diferentes fabricantes. Muchos formatos disponen de compatibilidad exclusivamente de lectura con al menos una generación previa.

Familia 1a Generación 2a Generación 3a Generación 4ah Generación 5a Generación 6a Generación
Quantum SDLT SDLT220 110GBytes SDLT320 160GBytes SDLT600 300GBytes DLT-S4 800GBytes    
IBM     3592 2004 300GB 40MB/s TS1120 2006 700GB 104MB/s    
Sun - Storagetek   9940B 2002 200GB 30MB/s T10000 2006 500GB 120MB/s T10000B-2008 ITB 120MB/s    
LTO LTO-1 2001 100GB 20MB/s LTO-2 2003 200GB 40MB/s LTO-3 2004 400GB 80MB/s LTO-4 2007 800GB 120MB/s LTO-5 sin fecha (2009+) 1.6TB 180MB/s (estimado) LTO-6 sin fecha  (2011+) 3.2TB 270MB/s (estimado)
Sony S-AIT S-AIT 2003 500 GB 30MB/s S-AIT2 2006 800 GB 45MB/s        
Sony AIT     AIT-3 2003 100 GB 12MB/s AIT-4 2005 200 GB 24MB/s    

Cuadro 1, sección 6.3: Plan de desarrollo proyectado para cintas de datos

 


* Esto conlleva un cierta generación de residuos y daño medioambiental que va más allá del ámbito de la discusión puramente tecnológica, aunque en realidad una biblioteca de viejas cintas de datos consuma a gran escala más polímeros y derivados petroquímicos por producto que un sistema actual de alta densidad, dotado de soluciones de almacenamiento robotizadas energéticamente más eficientes que ocuparán, al mismo tiempo, un menor espacio físico.

6.3.11 Robots automáticos o recuperación manual de datos

6.3.11.1    Para operaciones a pequeña escala es posible realizar una copia de seguridad de datos desde una estación de trabajo (un ordenador) a una unidad de cinta, y ubicar manualmente los cartuchos de cinta para su almacenamiento en una estantería tradicional. Incluso los sistemas en red a pequeña escala podrán llevar a cabo un procedimiento de salvaguarda de datos manual de sus contenidos (ver también el capítulo 7, «Opciones a pequeña escala para sistemas de almacenamiento digital»). Las mismas pautas generales para entornos de almacenamiento son aplicables a todo tipo de cintas magnéticas, aunque deba prestarse especial atención a minimizar la presencia de polvo y otras substancias contaminantes. Para operaciones a gran escala, y en particular allí donde los costes laborales sean altos y exista presupuesto para el equipamiento adecuado, será deseable disponer de un cierto grado de automatización en favor de sistemas más económicos que los puramente manuales. El grado de automatización dependerá de la escala y la consistencia de la tarea, el tipo de acceso al contenido y los costes relativos de los principales recursos.

6.3.11.2    Cargadores automáticos y bibliotecas robotizadas de cinta. El siguiente paso tras las unidades de cinta autónomas es el cargador automático o autocargador a pequeña escala, dotado de una unidad de lectura/escritura de cinta — ocasionalmente dos — y de una fila o carrusel de cintas de datos dispuestas secuencialmente para alimentar la unidad y permitir de este modo operaciones de salvaguarda (de datos. Una de las principales diferencias entre los autocargadores y las bibliotecas robotizadas a gran escala reside en que, en el primer caso, las cintas grabadas no están registradas por el software de salvaguarda de datos en una base de datos centralizada que pueda permitir la recuperación automatizada. Las tareas de búsqueda, recuperación y recarga de ficheros individuales siguen en manos de un operador humano. Todo lo que los autocargadores permiten es, tal y como su nombre indica, la lectura y/o escritura secuencial automatizada con el fin de superar las limitaciones de capacidad que cada cinta individual impone. Desaparece así del proceso el operador humano responsable de cambiar de cinta durante el proceso de salvaguarda.

6.3.11.3    Por contra, hasta la más pequeña de las bibliotecas robotizadas de cinta está programada para comportarse como un sistema de almacenamiento único e independiente. La ubicación de ficheros individuales en diferentes cintas resulta transparente al usuario. El sistema de control de la biblioteca supervisa las direcciones de los ficheros en cada cinta, así como la posición física de las cintas en la biblioteca. Ante cualquier recarga de datos o reubicación de una cinta, el subsistema robotizado reescaneará los compartimentos de cintas durante la inicialización para actualizar su inventario con metadatos provenientes de códigos de barras, etiquetas de radiofrecuencia (rf tags) o chips de memoria ubicados en las carcasas de las mismas cintas.

6.3.11.4    Las bibliotecas de cintas de mayores dimensiones presentan ventajas sobre las de menor tamaño. Pueden ser construidas con redundancia y hallarse diseminadas, con lo que se minimiza el tiempo de inactividad y la carga de procesos de escritura/lectura se equilibra entre diversos sistemas similares. Las bibliotecas de gran tamaño también pueden usarse como sistema multipropósito: pueden, por ejemplo, mantener las copias de seguridad de una empresa a la vez que manejar el contenido audiovisual en archivo.

6.3.11.5    Los casetes o cartuchos de cinta de datos utilizados en un sistema robotizado deberán tener algún tipo de identificación (código de barras, etiquetas de radiofrecuencia, etc.). Estos sistemas ópticos o electromagnéticos de reconocimiento operan a veces en conjunción con memorias MIC para suplementar información sobre la identificación y contenido de la cinta. Algunos formatos disponen de un sistema global de identificación que asigna códigos de barras a cada casete o cartucho, de modo que cualquier cinta utilizada en una biblioteca robotizada pueda ser reconocida en otro sistema de biblioteca.

6.3.11.6    Programas de salvaguarda y migración. Calendarios. Existe cierta confusión tanto en círculos de tecnologías de la información y la comunicación (TIC) como en comunidades más amplias en lo referente al propósito y operación de los archivos de datos a largo plazo. Dos malentendidos muy populares son los siguientes. En primer lugar, el que afirma que archivar es el proceso de desplazar material de uso poco frecuente desde dispositivos de almacenamiento sobre disco conectados en red, de alto coste, hacia otros dispositivos más asequibles, offline, en bibliotecas inaccesibles desde donde quizás ya no pueda recuperarse. En segundo lugar, el que asegura que el proceso de backup es la rutina programada de forma periódica — diaria o semanalmente — de copia completa de todo lo almacenado en el sistema.

6.3.11.7    En relación al primer malentendido, la realidad indica que algunos de los materiales más importantes y valiosos pueden no usarse durante meses o años, pero su supervivencia debe seguir garantizada sin titubeos. Análogamente, respecto al segundo malentendido, si se trabaja con las reglas adecuadas, puede que no sea preciso replicar diaria o semanalmente grandes cantidades de material si solo se actualizan pequeños porcentajes. En la práctica, aun cuando el establecimiento de un plan estricto de replicación de datos en diferentes medios y ubicaciones resulte esencial para minimizar el riesgo de fallos tecnológicos y garantizar la recuperación ante desastres, las características particulares del patrimonio digital requieren ciertos procedimientos que difieren de la gestión de datos estandarizada por las tecnologías de la información.

6.3.11.8    Aunque los sistemas convencionales de administración jerárquica del almacenamiento (Hierarchical Storage Management, HSM) puedan optimizarse para realizar copias de seguridad periódicas y desplazar contenidos de baja demanda a ubicaciones menos accesibles, otros sistemas con mejores prestaciones podrán adaptarse más a las reglas de funcionamiento de archivos con diferentes tamaños y niveles de acceso. Una organización de tamaño medio puede llegar a transferir unos 100GB de datos de audio cada semana, o bien 1TB de vídeo. Es razonablemente sencillo garantizar la copia de los materiales tan pronto como se integran en el sistema, así como mantener el acceso a los más consultados.

6.3.11.9    Alguna de las tareas primordiales del software de gestión del almacenamiento son la optimización del uso de los recursos informáticos y la administración de los dispositivos en el ámbito del equipamiento, así como la regulación del tráfico de datos con la menor latencia posible para el usuario. El software HSM ofrece una serie de opciones para la migración de ficheros desde disco duro en red hacia cinta, opciones que pueden ser de base temporal (anterior a una cierta fecha), dimensional (mayor de un cierto tamaño), posicional (ubicados en carpetas determinadas) o relacionadas con determinados límites superiores o inferiores de ocupación de disco duro.

6.3.11.10 Cuando se generan tanto ficheros de alta resolución como copias de acceso a baja resolución, es típico que los primeros sean los destinados a la preservación y los trasladados a cinta con el fin de liberar espacio de disco duro, que es más caro. Se requiere un compromiso entre la disponibilidad del material y la optimización del uso de las unidades de cinta y otros medios grabables. Si el acceso a las cintas es muy frecuente, las repetidas operaciones de carga y descarga, rebobinado y reproducción degradarán el rendimiento del sistema. Los sistemas más sofisticados de gestión del contenido a menudo incorporan niveles más bajos de gestión de almacenamiento que hacen que los usuarios sean menos conscientes de los ficheros y componentes que soportan el sistema.

6.3.12 Selección y supervisión del medio de cinta de datos

6.3.12.1    Como en cualquier sistema convencional de preservación, resulta importante no solo establecer copias de seguridad y redundancia en caso de fallos en los medios o componentes grabables, sino también establecer y medir estándares de rendimiento para las partes vitales del sistema. Programas informáticos como SCSI-Tools permiten chequeos menos exhaustivos de las unidades individuales de cinta y otros dispositivos en red a favor de determinar si el sistema completo funciona a un nivel óptimo. Las cintas LTO disponen de una interfaz para la supervisión de datos, una funcionalidad que raramente se utiliza a pesar de sus beneficios para sistemas de archivo. Algunos sistemas HSM pueden controlar de manera regular la calidad de los activos almacenados. Estos sistemas supervisan la tasa de error de las cintas al mismo tiempo que los usuarios acceden a sus activos, o bien leen automáticamente estos activos, sin intervención humana, cuando la cinta no haya sido utilizada durante un cierto periodo de tiempo.

6.3.13 Costes

6.3.13.1    El coste del almacenamiento de datos en cinta se reparte habitualmente en cuatro áreas:

  • cintas grabables: disponibilidad y recambio del medio cinta principal y de backup cada 3-5 años
  • unidades de cinta: disponibilidad y recambio cada 1-5 años, con servicio de asistencia técnica o garantía
  • biblioteca robotizada: adquisición y mantenimiento con ciclo de vida de unos 10 años
  • programas informáticos: adquisición, desarrollo, integración y mantenimiento

6.3.13.2    En un sistema manual los costes de almacenamiento en estantería resultan menores, aunque el espacio requerido para la plantilla de trabajadores es mayor, como lo es el coste de recuperación y chequeo manual de los datos. En un sistema automático robotizado, gran parte de los costes por intervención humana quedan compensados por el desembolso inicial en equipos y programas informáticos. Las bibliotecas robotizadas de cintas a gran escala pueden adquirirse de forma modular para distribuir el coste entre varios años, al ritmo de la demanda de crecimiento. Durante la vida útil de una biblioteca de cintas robotizada, componentes individuales tales como las unidades de cinta deberán ser reemplazados por nueva tecnología cada tres a cinco años. Si el acceso al contenido de un archivo es constante la vida útil de las unidades de cinta puede reducirse considerablemente, hasta llegar a ser de un año o quizá menos. Los medios y unidades viejas pueden mantenerse a efectos de redundancia si fuera necesario. Si el crecimiento de un archivo no es muy rápido podrá darse la coexistencia de dos generaciones de cintas y unidades — la presente y la anterior — mientras dure la migración del contenido del fondo del archivo hacia la nueva generación tecnológica. Si el archivo crece a un ritmo continuo, puede resultar económicamente efectivo dimensionar la biblioteca para almacenar solo la cantidad de contenido que sea depositada durante el tiempo de vida útil de la tecnología actual, para adquirir posteriormente una nueva biblioteca de mayores dimensiones a fin de acoger tanto el nuevo contenido como el viejo proveniente de la necesaria migración a la nueva tecnología. Esta última opción será también necesaria si las tecnologías vieja y nueva no pueden coexistir en la misma unidad.

6.3.13.3    Es una buena práctica empresarial mantener al menos una copia redundante de datos externalizada o geográficamente distante. Un radio de 20 a 50Km es por lo general suficiente para protegerse de desastres naturales u ocasionados por la mano del hombre y, al mismo tiempo, permitir la recuperación manual de los datos en cuestión de horas. Para reducir aún más el riesgo, deberían guardarse copias redundantes en diferentes lotes o tipos de medios, o hasta en diferentes tecnologías. Algunas cintas de datos son producto de un solo fabricante, con lo que el riesgo de un fallo puntual reiterado se incrementa. Tres copias de datos son más seguras que dos, y aunque los costes de medios se incrementen, los de programas y equipo informático están solo un poco por encima de los de la primera copia.

6.3.14 Introducción a los discos duros (HDD)

6.3.14.1    Los discos duros han servido como principal memoria y almacén de datos de los ordenadores desde que IBM introdujera su disco duro modelo 3340 en 1973. Dotado de 30MB de memoria fija más 30MB extraíbles y designado con el nombre operativo de 30/30 —por cuya razón fue apodado Winchester, en recuerdo del famoso rifle— el pionero diseño de sus cabezales hizo viable la operatividad de los discos duros. Las posteriores reducciones en tamaño y los más recientes desarrollos en el diseño de cabezales y discos han incrementado enormemente la fiabilidad de estos dispositivos, hasta los robustos diseños actuales de uso cuotidiano.

6.3.14.2    Los gestores de archivo responsables del mantenimiento de datos han considerado tradicionalmente el disco duro demasiado poco fiable para alojar una copia única de un ítem, a la par que demasiado caro si se utilizan discos en batería, aunque así sea más fiable. Consecuentemente, los datos de un disco duro han sido duplicados en múltiples copias sobre cinta para garantizar su supervivencia. Como ya se ha mencionado (6.1.4: «Aspectos prácticos de las estrategias de protección de datos»; 7.6: «Almacenamiento de archivo»), todos los sistemas de datos deben contar con copias múltiples y separadas de todos los datos. Aunque los expertos tienden a coincidir en la opción de una batería de discos duros reforzada con duplicados múltiples sobre cinta como el sistema de datos más seguro, la continua reducción de costes y la mejora en la fiabilidad convierten la opción de duplicados idénticos de datos sobre discos duros separados en una posibilidad factible. Persiste sin embargo el principio deseable de múltiples soportes, por lo que el almacenamiento exclusivo sobre disco duro constituye un riesgo.

6.3.15 Fiabilidad

6.3.15.1    La pérdida de datos como consecuencia de fallos en el disco o roturas del cabezal ha creado entre los profesionales suspicacias acerca del disco duro, aunque los fabricantes puedan anunciar hoy en día tasas anuales de error de menos del 1% y una vida operacional de 40.000 horas (Plend: 2003). Existen unidades de alta fiabilidad con una vida operacional aún más dilatada, denominada por los fabricantes como «tiempo medio entre errores». Aunque los discos duros son autónomos y están sellados y por tanto protegidos contra daños, muchos errores en las unidades de disco duro ocurren por dos motivos opuestos: como resultado del desgaste por uso continuado, o como consecuencia del apagado y puesta en marcha de la fuente de alimentación. El dilema reside en decidir si dejar el disco duro en marcha, e incrementar así el desgaste, o apagarlo y encenderlo e incrementar así el riesgo de fallo.

6.3.16 Descripción, complejidad y coste del sistema

6.3.16.1    Como se comentó en el capítulo 2, «Principios digitales básicos», las generaciones más recientes de ordenadores disponen de suficiente capacidad para manipular grandes ficheros de audio. Todos los ordenadores actuales incorporan discos duros de la adecuada velocidad y tamaño a los que puede añadirse un disco duro externo a través de un puerto USB, FireWire o SCSI. La complejidad asociada y el grado de pericia requeridos para usar tales sistemas no es muy superior a la que exige cualquier ordenador de sobremesa.

6.3.16.2    Cuando se almacenan en discos duros grandes cantidades de material audiovisual para el que se debe facilitar acceso, se acostumbra a agrupar los discos en una estructura de RAID (Redundant Array of Independent Disks) o batería redundante de discos independientes. La agrupación en RAID incrementa la fiabilidad del sistema de discos duros y la velocidad de acceso resultante mediante la consideración del conjunto de discos como un gran disco duro único. Si cualquiera de los discos individuales que constituye el RAID falla, podrá ser reemplazado de tal manera que todos los datos que almacena se reconstruyan con datos redundantes provenientes de los demás discos de la batería. El índice de fallos que el sistema será capaz de tolerar, así como la velocidad de recuperación, serán producto de los niveles del RAID. El RAID no se diseña como una herramienta de preservación de datos sino como un modo de mantener el acceso a través de los inevitables fallos de disco. El nivel apropiado de RAID para un escenario en concreto, así como el requisito de duplicación de los controladores del RAID, dependerá de las circunstancias particulares y la frecuencia precisada en la duplicación de datos. La agrupación en RAID requiere que todos los discos del conjunto estén en funcionamiento cuando cualquier parte de ellos esté en uso. Todos los RAIDs que contengan material de archivo, como en cualquier tipo de datos digitales, deberán ser duplicados más de una vez sobre otros soportes.

Capacidad Capacidad
nativa de la cinta (GB)
Número
de cintas
Número
recomendado
de unidades
lectoras de
cinta
Número
máximo de
unidades
Precio del
sistema
(€)
Precio por
unidad de
cinta (€)
Precio por
unidad
lectora (€)
Coste por GB (€)
10 TB 800 13 2 4 20.480 97 7.625 2,05
50 TB 800 63 4 16 56.800 97 10.175 1,14
100 TB 800 125 8 16 134.050 97 12.725 1,34
200 TB 800 250 12 16 205.350 97 12.725 1,03
500 TB 800 625 18 56 446.938 97 15.975 0,89
1000 TB 800 1250 36 88 864.517 97 15.975 0,86
2000 TB 800 2500 72 176 1.687.690 97 15.975 0,84

Cuadro 2, sección 6.3: Costes de inversión para sistemas de almacenamiento basados en tecnología LTO-4

 

Capacidad Mantenimiento hardware 1 año (€) Mantenimiento software 1 año (€) Mantenimiento hardware 2 años (€) Mantenimiento software 2 años (€) Mantenimiento hardware 3 años (€) Mantenimiento software 3 años (€) Mantenimiento hardware 4 años (€) Mantenimiento software 4 años (€) Mantenimiento hardware 5 años (€) Mantenimiento software 5 años (€)
10 TB 2.420 n/a 2.420 n/a 2.420 n/a 2.514 n/a 2.514 n/a
50 TB 3.454 n/a 4.958 n/a 4.958 n/a 4.958 n/a 4.958 n/a
100 TB 11.808 490 13.817 490 13.817 490 13.817 490 13.817 490
200 TB 15.787 582 19.323 582 19.323 582 19.323 582 19.323 582
500 TB 27.380 1.068 34.111 1.068 34.111 1.068 34.111 1.068 34.111 1.068
1000 TB 47.542 2.115 66.734 2.115 66.734 2.115 66.734 2.115 66.734 2.115
2000 TB 99.272 4.221 99.272 4.221 99.272 4.221 99.272 4.221 99.272 4.221

Cuadro 3, sección 6.3: Costes de mantenimiento anual de sistemas de almacenamiento basados en tecnología LTO-4

Notas sobre los cuadros:

  • Los precios dados son promedios calculados a partir del catálogo de precios de múltiples proveedores. El precio final que el cliente deberá abonar resultará por lo general algo menor.
  • Los precios se refieren a la capacidad neta de almacenamiento. Deberá considerarse al menos el doble de esta capacidad para contemplar el almacenamiento de copias de seguridad.
  • El precio del sistema incluye el coste de las cintas y unidades de la capacidad adecuada, pero no incluye ningún software o hardware HSM.
  • Los cuadros indican solo los costes de inversión y tarifas de mantenimiento que deberán abonarse al proveedor. Aparte habrá que incluir en los cálculos individuales los costes propios de electricidad, refrigeración, sala de máquinas, gestión, etc. La electricidad y la refrigeración de un sistema de biblioteca de cintas puede costar alrededor del 10% del total de su precio de compra durante un periodo de cinco años.

 

Capacidad Drive technology Capacidad
original
de la cinta
(GB)
Número
de cintas
System price (€) Precio del
sistema (€)
Precio por
unidad de
cinta (€)
5 TB SATA 500–1000 5–10 11.884 1.000 2,38
10 TB SATA 750–1000 10–14 19.997 1.000 2,00
50 TB SATA/FATA 1000 50 124.334 1.800 2,49
100 TB SATA/FATA 1000 100 230.914 1.800 2,31
200 TB SATA/FATA 1000 200 456.942 1.800 2,28
500 TB SATA/FATA 1000 500 1.202.726 1.900 2,41
1000 TB SATA/FATA 1000 1000 2.566.513 1.900 2,57
2000 TB SATA/FATA 1000 2000 4.782.584 1.900 2,39

Cuadro 4, sección 6.3: Costes de inversión para sistemas de almacenamiento basados en discos duros

 

Capacidad Mantenimiento hardware 1 año (€) Mantenimiento software 1 año (€) Mantenimiento hardware 2 años (€) Mantenimiento software 2 años (€) Mantenimiento hardware 3 años (€) Mantenimiento software 3 años (€) Mantenimiento hardware 4 años (€) Mantenimiento software 4 años (€) Mantenimiento hardware 5 años (€) Mantenimiento software 51 años (€)
5 TB 826 750 826 750 826 750 1.845 750 1.845 750
10 TB 1.206 1.125 1.206 1.125 1.206 1.125 2.600 1.125 2.600 1.125
50 TB 5.822 6.125 5.822 6.125 5.822 6.125 12.365 6.125 12.365 6.125
100 TB 10.514 8.500 10.514 8.500 10.514 8.500 22.391 8.500 22.391 8.500
200 TB 21.724 12.750 21.724 12.750 21.724 12.750 44.956 12.750 44.956 12.750
500 TB 57.061 37.250 57.061 37.250 130.394 37.250 130.394 37.250 130.394 37.250
1000 TB 130.203 66.250 130.203 66.250 263.537 66.250 263.537 66.250 263.537 66.250
2000 TB 223.778 124.250 223.778 124.250 477.121 124.250 477.121 124.250 477.121 124.250

Cuadro 5, sección 6.3: Costes de mantenimiento anual de sistemas de almacenamiento basados en disco duro

Notas sobre los cuadros:

  • Los precios dados son promedios calculados a partir del catálogo de precios de múltiples proveedores. El precio final que el cliente deberá abonar resultará por lo general algo menor.
  • El precio del sistema incluye el coste de discos duros de la capacidad adecuada según se requiera.
  • Los cuadros indican únicamente los costes de inversión y tarifas de mantenimiento que deban abonarse al proveedor. Aparte habrá que incluir en los cálculos individuales los costes propios de electricidad, refrigeración, sala de máquinas, gestión, etc. La electricidad y la refrigeración de un sistema de discos duros puede costar alrededor del 30-40% del total de su precio de compra durante un periodo de cinco años.

6.3.17 Almacenamiento exclusivo sobre disco duro

6.3.17.1    Los RAID pueden escalarse dentro de los límites del sistema. Sin embargo, los discos duros pueden escalarse de manera indefinida mediante la simple adición de más unidades. Desde la introducción del IBM 3340 la capacidad de almacenamiento de los discos duros se ha incrementado rápidamente, de forma casi exponencial, al tiempo que se reducían sus costes. Estos cambios, unidos al incremento de la fiabilidad, han conducido a algunos a sugerir la posibilidad de usar discos duros tanto para el almacenamiento principal como para el secundario (copia de seguridad). Pero pueden ponerse tres reparos a esta propuesta. En primer lugar, la vida útil de un disco duro se estima en términos de tiempo de uso, es decir, número de horas operativas. No existe un test sobre la esperanza de vida de un disco duro poco usado. En segundo lugar, la buena práctica de distribuir los datos entre diferentes tipos de medio distribuye también el riesgo de fallos: a la luz de esta experiencia la propuesta debe ser considerada muy cautelosamente. En tercer y último lugar, no hay manera de comprobar el estado de un disco duro en su estantería sin ponerlo antes en marcha (encender su fuente de alimentación) a intervalos regulares, contrarrestando así las ventajas de mantener el disco apagado (ver más abajo la sección 6.3.20, «Supervisión de discos duros»). Los soportes múltiples (combinando, por ejemplo, cinta y disco duro) continúan siendo la opción preferida. Los discos duros deberían ser implementados dentro de un sistema integrado.

6.3.18 Sistemas de almacenamiento en disco duro

6.3.18.1    Los sistemas de almacenamiento sobre disco duro son sistemas centralizados desarrollados para maximizar el uso del almacenamiento en disco y proporcionar gran capacidad y/o rendimiento. Estos sistemas se utilizan en conjunción con ordenadores servidores, de manera que un servidor dispone apenas de una pequeña cantidad de almacenamiento interno sobre disco duro o, a veces, ninguna en absoluto. Este tipo de sistemas se utiliza a menudo como solución de almacenamiento para entornos de mediana y gran dimensión. Como alternativa, un archivo digital puede compartir un sistema de almacenamiento centralizado con un cierto número de sistemas de ordenadores. El tamaño de un sistema puede variar desde 1 terabyte a diversos petabytes. Debe señalarse que el rendimiento de un sistema de almacenamiento podrá variar notablemente en función de la configuración escogida. Por ello resulta esencial anticipar una cuidadosa planificación en función de las necesidades reales y confiar a profesionales la configuración de la estructura de almacenamiento e interfaces del sistema, con el fin de obtener el mejor rendimiento de nuestra inversión.

6.3.18.2    Los sistemas centralizados de almacenamiento en disco se diseñan para proporcionar una mejor capacidad de recuperación ante errores que los discos duros independientes. Estos sistemas permiten diferentes niveles alternativos de protección en RAID, sus componentes pueden ser redundantes a fin de evitar fallos localizados, y pueden distribuirse local o geográficamente para proteger activos valiosos antes todo tipo de fallos y desastres.

6.3.18.3    El tipo de conexión entre el sistema de almacenamiento y los ordenadores a los que sirve juega un papel importante en el rendimiento del conjunto. Existen en términos generales dos opciones principales, conocidas por sus acrónimos en inglés: NAS (Network Attached Storage o almacenamiento conectado a red) y SAN (Storage Area Network o red de área de almacenamiento). Mientras que la opción NAS utiliza una red de datos estándar como Ethernet para desplazar datos entre los ordenadores y el sistema de almacenamiento, la tecnología SAN utiliza canales conmutados de fibra. Los sistemas NAS pueden operar a velocidades de 100Mbps,29 1Gbps y 10Gbps, mientras que los SAN trabajan a 2Gbps o a 4 Gbps. Ambas tecnologías tienen campo por delante para evolucionar y se espera que su rendimiento crezca en el futuro. El diseño específico de la tecnología SAN favorece su rendimiento, factor especialmente valorado en entornos más exigentes. Por ejemplo, el tamaño del bloque de entrada/salida (I/O) puede controlarse de forma más efectiva en un entorno SAN, mientras que los protocolos de red tienden a forzar los sistemas NAS a usar tamaños de bloque I/O bastante menores. Desde un punto de vista económico, la tecnología NAS es más asequible que la SAN.


29. Mbps equivale a megabits por segundo; Gbps a gigabits por segundo (n. de los t.).

6.3.19 Vida útil de un disco duro

6.3.19.1    Como se ha indicado más arriba, la vida operativa de muchos de los discos duros disponibles en el mercado se estima en unas 40.000 horas. Un uso medio de estos dispositivos traduce este tiempo en unos 5 años de vida útil antes de ser reemplazados. Algunas mejoras aplicadas recientemente a los discos duros de sobremesa como los rodamientos fluidos o cerámicos, la lubricación superficial de la capa magnética de los discos y las técnicas especiales de estacionamiento de los cabezales pueden alargar ligeramente las expectativas de vida. Sin embargo, no existe ningún test fiable que aporte datos sobre la vida útil de discos duros poco o casi nunca utilizados, por lo que es una opción acertada planear el recambio de los discos duros de un sistema cada 5 años

6.3.20 Supervisión de discos duros

6.3.20.1    Un indicador del inminente fallo de un disco puede ser el incremento de bloques de datos erróneos. Es típico de los discos duros más recientes mostrar errores de bloque aun siendo discos recién estrenados, y muchos sistemas de datos gestionan estos bloques defectuosos simplemente reasignando la dirección del bloque en cuestión. Sin embargo, si la cantidad de bloques erróneos se incrementa, esto podría indicar que el disco duro está empezando a fallar. Existen programas informáticos que avisan del el incremento de los bloques de datos erróneos, así como de las condiciones físicas del disco que puedan indicar potenciales problemas.

6.3.21 Tecnologías de disco duro

6.3.21.1    Existen cuatro métodos principales para conectar discos duros y otros dispositivos periféricos a los ordenadores: USB (Universal Serial Bus), IEEE 1394 (FireWire), SCSI (Small Computer System Interface) y SATA/ATA (Serial Advanced Technology Attachment/AT Attachment). Cada uno de ellos tiene sus particulares ventajas según la situación. USB y FireWire son puertos de conexión multipropósito, aptos para conectar el ordenador tanto a un disco duro como a una cámara de vídeo digital o un reproductor MP3. Las opciones SCSI y SATA/ATA se usan principalmente para conectar discos duros a ordenadores o sistemas de almacenamiento en disco.

6.3.21.2    Tanto la interfaz SCSI como su sucesora SAS (Serial Attached SCSI) permiten ciclos de lectura y escritura a alta velocidad y facilitan el acceso a un mayor número de discos que los permitidos mediante SATA/ATA. Los discos SCSI pueden aceptar múltiples comandos a la vez a través del bus SCSI y no generan colas de peticiones como en SATA/ATA. Las unidades SATA/ATA resultan comparativamente más baratas. La velocidad de acceso en lectura es básicamente la misma para ambas interfaces y en el contexto del audio digital ninguna de las dos limitará las operaciones de una estación de trabajo de audio digital (también conocida por su acrónimo inglés DAW, Digital Audio Workstation). En cuanto al rendimiento, la diferencia entre los controladores y discos SCSI/SAS y SATA podrá notarse en el marco de un sistema central de almacenamiento de uso intensivo.

6.3.21.3    Los discos SCSI/SAS con canal de fibra (tecnología Fibre Channel, FC) se utilizan principalmente en entornos empresariales de alta exigencia mientras los discos SATA abundan en el mercado doméstico, aunque crece su uso en sistemas empresariales que buscan una capacidad de almacenamiento más rentable, por ejemplo, en el almacenamiento de archivo. Precisamente en este escenario la decisión final entre las tecnologías (FC) SCSI/SAS y SATA depende de la carga efectiva del sistema. Si este se usa para archivar pequeñas o medianas cantidades de contenido que no requieren de acceso intensivo, una solución basada en SATA puede ser suficiente. La decisión deberá basarse en la detallada descripción de los requisitos y en una buena negociación con el proveedor de almacenamiento.

6.3.21.4    Los discos duros conectados vía USB o FireWire pueden servir para transferir contenidos de un entorno a otro. Sin embargo, dada su poca fiabilidad, difícil supervisión y fácil extravío, no deberían ser considerados válidos para tareas de archivística aun cuando su precio resulte muy atractivo.

6.3.21.5    La interfaz por sí misma no es una indicación suficientemente consistente sobre la fiabilidad y rendimiento de un disco duro o un sistema de almacenamiento datos. El comprador/usuario debería preocuparse también por otros parámetros operativos y de configuración del sistema. Parece que la fiabilidad de los discos esté asociada con la interfaz FC SCSI/SAS. A pesar de ello, los discos duros no son por sí mismos permanentemente fiables, por lo que todos los datos de audio deberían disponer de copias de seguridad en un formato de cinta adecuado (ver 6.3.5, «Rendimiento de la cinta de datos»). (Para mayor detalle ver Anderson, Dykes y Riedel: 2003).

6.3.21.6    Hay una tecnología de almacenamiento emergente que podría gozar de una posición destacada en un futuro próximo. El almacenamiento sobre estado sólido en la forma de memorias flash se está desarrollando como alternativa a los discos rotatorios y ya se ha convertido en una alternativa a los discos duros en ordenadores de sobremesa. Algunos fabricantes de sistemas de almacenamiento han introducido también discos de estado sólido (discos flash) en sus sistemas de bajo o medio coste y planean también introducirlos en sus sistemas de alto nivel. Aunque el almacenamiento sobre estado sólido plantea todavía ciertos desafíos en lo que a fiabilidad de almacenamiento se refiere, puede convertirse en un solución viable para las necesidades de almacenamiento de la comunidad archivística. Su precio por gigabyte empieza a ser competitivo, es más respetuoso con el medio ambiente dada su menor demanda de potencia y prescinde de parte móviles (motores), lo que podría significar un mayor tiempo de vida para las unidades de almacenamiento. Una vida útil de diez años en lugar de los habituales cinco por unidad de almacenamiento podría significar una menor inversión y costes de gestión, al permitir el ahorro de uno de cada dos procesos periódicos de migración. En términos de rendimiento de lectura/escritura, el almacenamiento sobre estado sólido ya es comparable al de la tecnología de disco duro.

6.3.22 Administración jerárquica del almacenamiento (HSM)

6.3.22.1    Las funciones de almacenamiento de archivo definidas en OAIS integran en el mismo modelo conceptual la noción de la administración jerárquica del almacenamiento (Hierarchical Storage Management, HSM). Cuando se definió el estándar OAIS no se concebía aún la posibilidad de manejar cómodamente grandes cantidades de datos de ninguna otra manera. La cuestión práctica que sustenta la opción HSM consiste en la diferencia de coste entre diferentes medios de almacenamiento, es decir, la premisa por la cual el almacenamiento sobre disco duro resulta más caro que sobre cinta. En este escenario HSM ofrece un almacén virtual de información unificado, aunque en la realidad las copias de datos puedan estar diseminadas a lo largo de un buen número de tipos de soporte diferentes en función del uso y las velocidades de acceso.

6.3.22.2    Sin embargo, el coste del disco duro ha disminuido a un ritmo mayor que el de la cinta, hasta el punto de resultar equivalentes en cuanto a precio. Consecuentemente, el uso de HSM pasa a ser una opción de implementación. Bajo estas circunstancias, un sistema de almacenamiento que contenga todos sus datos en un conjunto de discos a la vez que una copia completa en un conjunto de cintas resultará un opción muy asequible especialmente para sistemas de almacenamiento digital de hasta 50 terabytes (valor que crece año tras año). Para sistemas de menores dimensiones, en cambio, un HSM completamente funcional resultará innecesario. En su lugar podrán contemplarse sistemas mucho más sencillos que administren y mantengan información sobre la localización de las copias y la edad y versión de los medios grabables, y repliquen sobre disco duro y sobre cinta el conjunto de los datos almacenados.

6.3.22.3    La opción de implementar un HSM se mantiene como preferente para sistemas de almacenamiento digital de medio y gran tamaño y continúa siendo uno de los componentes más caros de dichos sistemas.

6.3.23 Software de gestión de ficheros para sistemas de pequeño tamaño

6.3.23.1    En sistemas donde el conjunto del archivo se halle duplicado en disco duro y cinta, el propósito del software de gestión de archivos es el seguimiento de la ubicación, condición, precisión y edad de las copias en cinta. Esta funcionalidad básica para las copias de seguridad constituye una alternativa de bajo coste respecto a un HSM clásico y puede, al menos en teoría, resultar más fiable para sistemas de menor tamaño. Sin embargo, puesto que los HSM para sistemas a gran escala representan todavía una parte significativa del mercado, la industria del sector les destina los mayores esfuerzos en la investigación y desarrollo. Las soluciones de software para la gestión de ficheros a pequeña escala se desarrollan entre la comunidad de programadores y usuarios de código abierto, de donde cabe destacar tres aplicaciones NAS populares: FreeNAS, Openfiler y NASLite, además de Advanced Maryland Automatic Network Disk Archiver (AMANDA). Como en cualquier solución de código abierto, la responsabilidad de comprobar la conveniencia y fiabilidad de la propuesta recae sobre el usuario, por lo que a falta de mayor detalle esta publicación se abstiene de hacer recomendaciones específicas.

6.3.24 Verificación y recuperación de datos

6.3.24.1    Algunos programas informáticos comerciales permiten la detección automática de errores de lectura/escritura en cinta durante los procesos de backup y verificación. Esta función se implementa habitualmente mediante el chequeo de códigos de redundancia cíclica, tecnología basada en una suma de verificación entre el código y los datos que permite detectar los errores acaecidos durante la transmisión digital o el almacenamiento. Para todo sistema de archivo se recomienda la implementación de una función de comprobación de errores. Esta implementación resulta difícil sobre software de código abierto, pues el control de errores se vincula estrechamente a la especificidad del hardware en cuestión. Una opción comercial en este sentido la constituye el dispositivo lector/verificador de cartuchos LTO Veritape, de MPTapes Inc. Fuji Magnetics, por otro lado, anunció un sistema de diagnóstico basado en la lectura de un chip para casetes LTO, asociado a un software propietario.

6.3.25 Integridad y sumas de verificación

6.3.25.1    Una suma de verificación es un cálculo cuyo valor sirve para verificar que todos los datos almacenados, transmitidos o replicados se encuentren libres de error. Este valor se calcula de acuerdo a un determinado algoritmo y se transmite y/o almacena con los datos. Cada vez que los datos vuelven a consultarse se recalcula la suma de verificación y se compara con el valor esperable. Si ambos coinciden, no hay error. Existen varios tipos y versiones de algoritmos de verificación de datos que constituyen una práctica estándar recomendada para la detección de errores accidentales o intencionales acaecidos en ficheros de archivo.

6.3.25.2    Las versiones criptográficas son las únicas con un probado historial de éxito en la protección de datos ante daños intencionados. Sin embargo, incluso la más simple de ellas está hoy en día cuestionada. Recientemente se ha mostrado la posibilidad de crear bits sin sentido, capaces de recrear la suma de verificación generada por el algoritmo MD5. Esto significa que cualquier intruso interno o externo podría ser capaz de sustituir contenido digital valioso por datos sin sentido, sin que el sistema de chequeo contra errores pueda detectarlo: el ataque solo se constatará durante la eventual consulta del fichero corrupto. El algoritmo de reducción criptográfica MD5, aunque todavía útil a efectos de transmisión de datos, utiliza solo 128 bits y por ello no debería usarse allí donde la seguridad sea un factor capital. SHA-1 es otro algoritmo criptográfico amenazado, pues ha resultado ser vulnerable en teoría. La longitud de SHA-1 es de 160bits. SHA-2 dispone de diferentes versiones con longitudes de 224, 256, 384 y 512 bits, y resulta algorítmicamente similar a SHA-1. El constante crecimiento de la potencia computacional significa que, a largo plazo, la seguridad aportada por estos algoritmos y sus sumas de verificación también estará en riesgo.

6.3.25.3    A pesar de todos estos compromisos, la suma de verificación continúa siendo una opción válida para la detección de errores accidentales, y si se incorpora a un repositorio digital de confianza puede ser perfectamente capaz de desvelar daños intencionados sobre ficheros de datos en escenarios de bajo riesgo. Sin embargo, allí donde exista riesgo, e incluso donde no se contemple, la supervisión de las sumas de verificación y de su viabilidad debe formar parte del plan de preservación.

6.4 Planificación de la preservación digital

6.4.1 Introducción

6.4.1.1      Una vez iniciado el proceso de conversión del contenido sonoro a un formato digital adecuado para su custodia, tal y como ya se ha dicho, en un sistema de almacenamiento digital, queda por comentar la gestión de la preservación permanente del contenido. La sección 6.3, «Almacenamiento de archivo», incluye una descripción de las cuestiones que conlleva la gestión del flujo de bits, esto es, la necesidad de garantizar que todos los datos digitalmente codificados mantengan su estructura lógica a través de la adecuada gestión de la tecnología de almacenamiento.

6.4.1.2      Existe todavía otro aspecto sobre la preservación de la información digital: la garantía de acceso al contenido codificado en los ficheros. OAIS denomina esta función «planificación de la preservación» y la describe como «los servicios y funciones necesarios para la supervisión del entorno [...] y la provisión de recomendaciones que aseguren que la información almacenada [...] continúa accesible a largo plazo para la comunidad de usuarios determinados, aunque el entorno informático original pueda, eventualmente, quedarse obsoleto» (OAIS 2002: 4.2).

6.4.1.3      La planificación de la preservación es el proceso que nos permite conocer los aspectos técnicos del repositorio, identificar las vías futuras en el camino de la preservación y determinar la oportunidad de llevar a cabo acciones de preservación como, por ejemplo, la migración entre formatos.

6.4.2 Rutas hacia el futuro digital

6.4.2.1      Cuando un formato de fichero se vuelve obsoleto, corre el riesgo de convertirse en inaccesible debido a la falta de un software apropiado para acceder a su contenido. Ante esta amenaza existen dos opciones: la migración o la emulación. En la migración el fichero se modifica o migra al nuevo formato, de manera que el contenido pueda ser reconocido y accesible mediante el software disponible en el momento. En la emulación, el software mismo del sistema operativo o de acceso se diseña o modifica para ser capaz de abrir y reproducir el fichero obsoleto, en un nuevo entorno adaptado que de otra forma hubiese sido incapaz de acceder al contenido.

6.4.2.2      Nuestra actual manera de entender las cosas nos lleva a apostar por la migración en el caso de ficheros concretos y simples, como los de audio digital sin compresión. Esto no es válido sin embargo para todos los casos de almacenamiento digital, y los sistemas deberían ser lo suficientemente flexibles como para responder a entornos cambiantes. Unos metadatos de preservación adecuados, como los que se describen en las recomendaciones de PREMIS, o los campos explícitos de tipo de fichero (incluida la versión) que contempla BWF/AES 31-2-2006, respaldarán cualquiera de las dos opciones (migración o emulación), así como el estándar AES 57-2011 AES standard for audio metadata — Audio object structures for preservation and restoration (estándar para metadatos de audio — estructuras de objetos de audio para la preservación y la restauración). La Universidad de Harvard está desarrollando un instrumento para entornos de código abierto que facilita la generación de los campos de metadatos necesarios.

6.4.2.3      La importante apuesta que las industrias audiovisuales y de TIC en general han realizado en favor del formato estándar de audio (.wav) comporta la lógica disponibilidad de instrumentos de software profesionales que fortalecen la garantía de acceso continuado a los contenidos y en consecuencia, su gestión por parte de los archivos sonoros. Asimismo, la apuesta por un único formato favorece su continuidad por el mayor tiempo posible, pues la industria no dejará de lado un formato consolidado sin obtener por ello beneficios significativos. Este aspecto de la preservación digital es el mejor argumento a favor de la absoluta adhesión a un formato estandarizado.

6.4.3 Factores de motivación y oportunidad

6.4.3.1      Aunque la sabia elección de formatos estándares y la observancia de las mejores prácticas pueda retrasar esta eventualidad, llega el momento en que se impone la necesidad de llevar a cabo una acción de preservación que permita seguir garantizando el acceso al contenido sonoro almacenado. La cuestión para todo archivista de sonido comprometido con su contenido digital es determinar con precisión el cuándo y el cómo de la operación.

6.4.3.2      Se están desarrollando una serie de iniciativas para ayudar en la toma de decisiones. Entre ellas la Global Digital Format Registry (GDFR http://hul.harvard.edu/gdfr/), comprometida a respaldar «el uso efectivo, intercambio y preservación de todo contenido codificado digitalmente». Otros servicios proporcionan recomendaciones sobre los formatos más adecuados, como las facilitadas por la Biblioteca del Congreso (Library of Congress, EUA) o The National Archives (Reino Unido).

6.4.3.3      Los factores que puedan motivar al responsable de un archivo sonoro a llevar a cabo algún tipo de acción de preservación serán la confirmación de que un nuevo software ya no interpreta un formato antiguo, o bien la constatación de que el sector en su conjunto apuesta por un nuevo formato. El conocimiento de los acontecimientos que anuncian cambios provendrá de la comprensión profunda de las nuevas tecnologías, la industria, el sector y el mercado, y se recomienda a los archivistas de sonido tomar buena nota de los servicios de orientación citados en el punto anterior.

6.4.3.4      Algunos programas de software y servicios en desarrollo, como el AONS (Automatic Obsolescence Notification System, Sistema automático de notificación de obsolescencia) serán capaces de avisar a los administradores de la colección sobre cambios que hayan ocurrido en el mercado y que requieran alguna acción (https://wiki.nla.gov.au/display/APSR/AONS+II+Documentation). La implementación de tales servicios tendrá lugar en paralelo con el desarrollo del ya mencionado GDFR.

6.5 Gestión y administración de datos

6.5.1.1      La gestión de datos en OAIS se refiere a los servicios y funciones necesarios para generar (o poblar), mantener y hacer accesibles tanto la información descriptiva que identifica y documenta los fondos de un archivo como los datos administrativos necesarios para la gestión de dicho archivo; es decir, el catálogo y el registro estadístico de los datos contenidos.

6.5.1.2      La administración en OAIS se refiere a los servicios y funciones necesarios para la gestión de la configuración del sistema, la supervisión de las operaciones, la atención al cliente y la actualización de la información de archivo. También se responsabiliza de la gestión de procesos tales como la negociación de los acuerdos de recepción de material con el productor de los contenidos, la auditoría del proceso de presentación, el control del acceso físico y el establecimiento y mantenimiento de los estándares de archivo.

6.5.1.3      La gestión y administración del repositorio digital y el sistema de archivo proporcionará servicios que permitan la sostenibilidad del sistema y la preservación del contenido almacenado. Los requisitos de un sistema digital de almacenamiento de archivo pueden incluir la habilidad para interrogar al sistema y obtener conjuntos de fondos o activos, el acceso a estadísticas de uso y la obtención de resúmenes de contenidos que incluyan información sobre tamaños u otros datos técnicos y de gestión. La gestión y administración de datos resulta decisiva en un sistema de archivo sostenible, puesto que garantiza que los ficheros preservados y accesibles puedan ser adecuadamente hallados e identificados.

6.5.1.4      Es en esta sección del sistema de almacenamiento digital y preservación donde debe implementarse el control de acceso al contenido, es decir, el control de seguridad. Muchos sistemas de software para repositorios incorporan opciones para la aplicación de políticas que son almacenadas y gestionadas por el sistema. Es importante tener presente que la información sobre derechos de gestión, como el contenido mismo de audio, debe sobrevivir al sistema que la almacena. La información codificada en XACML (eXtensible Access Control Markup Language), por ejemplo, es más universalmente aplicable y transferible a otros sistemas. XACML, implementado en XML, es un lenguaje declarativo sobre la política de control de acceso al contenido, a la vez que un modelo de procesado que describe cómo interpretar las políticas. El grupo de estándares de OAIS gestiona el lenguaje XACML (http://www.oasis-open.org/committees/tc_home.php?wg_abbrev=xacml).

6.5.1.5      Uno de los test esenciales en el momento de escoger, establecer e instalar un sistema de preservación digital debiera ser, precisamente, determinar si la administración del sistema que se propone es asumible por la institución que plantea adoptarlo. La capacidad y el rango de funciones de un sistema están a menudo vinculados a la complejidad de su instalación y uso. Un sistema incorrectamente administrado y mantenido representa un riesgo grave para el contenido que acoge. Por eso es tan importante para la gestión a largo plazo de un sistema disponer de la experiencia técnica necesaria para garantizar su correcto uso.

6.6 Acceso

6.6.1 Introducción

6.6.1.1      El modelo de referencia de OAIS define «acceso» como la entidad que «proporciona los servicios y funciones que permiten a los consumidores determinar la existencia, descripción, ubicación y disponibilidad de la información almacenada en el sistema OAIS, así como solicitar y recibir productos de información». En otras palabras, acceso es el conjunto de mecanismos y procesos por los cuales el contenido se encuentra y se recupera. El documento IASA-TC 03 La salvaguarda del patrimonio sonoro: ética, principios y estrategia de preservación subraya que «el objetivo principal de un archivo es asegurar el acceso constante a la información almacenada». La preservación del contenido es requisito previo para el acceso sostenido a los contenidos, y en un archivo bien planificado el acceso es un resultado directo de ello.

6.6.1.2      El acceso es, en su forma más simple, la capacidad para localizar contenidos y, en respuesta a solicitudes autorizadas, permitir su recuperación a efectos de audición o hasta copia para uso externo, siempre que los derechos asociados a una obra así lo permitan. En un entorno digital interconectado el acceso puede ser remoto. El acceso significa sin embargo algo más que la simple capacidad para entregar un ítem. Desde un punto de vista técnico la mayoría de los archivos pueden entregar un fichero de audio bajo demanda, pero un auténtico sistema de acceso proporcionará instrumentos de búsqueda, mecanismos de entrega y capacidad de interacción y negociación en relación al contenido. Se añade aquí una nueva dimensión al acceso más allá del hecho de salvar la distancia. En este nuevo modelo de recuperación basada en los servicios, el acceso puede ser considerado como un diálogo entre el sistema del proveedor y el navegador en red del usuario.

6.6.2 Integridad en accesos en línea (on line) y fuera de línea (off line)

6.6.2.1      Antes de la existencia del acceso remoto en entornos en línea, los conceptos de autenticidad e integridad eran establecidos por individuos en las salas de lectura y puntos de escucha de las instituciones depositarias de la colección. La entrega de documentos corría a cargo de representantes de una institución cuya reputación respondía de la integridad del contenido. Si se cuestionaba la veracidad de las copias, podía recurrirse al examen de los materiales originales.

6.6.2.2      El entorno en red sigue dependiendo en ciertos aspectos del grado de confianza que despierte la institución que atesora la colección. Sin embargo, a través de la red no se puede entregar nunca un ítem indiscutiblemente original; existe la posibilidad de una manipulación no detectada o de una corrupción accidental de datos tanto en el archivo mismo como en su red de distribución. Para contrarrestar esta posibilidad se han ideado varios sistemas basados en atestiguar matemáticamente la autenticidad o integridad de un ítem o una obra.

6.6.2.3      La autenticidad tiene que ver con saber que algo ha sido originado desde una fuente en particular. La confianza intrínseca en la institución que crea los contenidos se erige como testimonio válido para estos procesos, a los que se añade la expedición de un certificado de autoridad que da a un tercero garantía de autenticidad. Existen diversos sistemas capaces de llevar a cabo el proceso.

6.6.2.4      La integridad se refiere a la necesidad de conocer si un ítem ha sido dañado o manipulado. Las sumas de verificación constituyen el método habitual para comprobar la integridad y son herramientas valiosas tanto para el archivo como para la red de distribución (ver 6.3.25, «Integridad y sumas de verificación»). Sin embargo, como ya se comentó en el punto 6.3.25, las sumas de verificación no son infalibles y su uso requiere que el archivo esté al corriente de los desarrollos más recientes al respecto.

6.6.3 Estándares y metadatos descriptivos

6.6.3.1      Disponer de metadatos detallados, apropiados y organizados resulta clave para proporcionar un acceso amplio y efectivo. En el capítulo 3, Metadatos, se presenta una discusión pormenorizada sobre sus muchas formas y requerimientos. Se recomienda tenerlo presente en el desarrollo de un sistema de distribución. Solo mediante la presencia de metadatos bien organizados y estructurados podrán plantearse instrumentos de acceso potentes, por ejemplo los basados en interfaces como mapas o líneas de tiempo.

6.6.3.2      La manera más efectiva y rentable de administrar y crear metadatos apropiados es asegurando, antes de la captura del contenido, la definición de requisitos para todos los componentes del sistema de distribución. De esta forma, los pasos en la creación de metadatos pueden establecerse ya en los flujos de trabajo previos a la transferencia o en la transferencia misma de contenidos. El coste de generar un mínimo conjunto de metadatos es, como se discute en la sección 7.4, la tarea extra de añadir y estructurar los metadatos en un sistema ya creado.

6.6.4 Formatos y paquetes de diseminación de información (PDI/DPI)

6.6.4.1      El paquete de Diseminación de Información (PDI) es aquel que recibe el consumidor en respuesta a una solicitud de contenido o un encargo. El sistema de distribución deberá también ser capaz de entregar un informe o resumen de resultados en respuesta a una consulta.

6.6.4.2      Los desarrollos en la red y la «industria» del acceso han propuesto sistemas de distribución basados, naturalmente, en formatos de distribución. Tales formatos no suelen ser adecuados para la preservación y, en general, tampoco los formatos de preservación suelen ser adecuados para la distribución. A fin de facilitar la distribución se generan copias independientes para el acceso, sea de forma rutinaria o bien bajo demanda, en respuesta a una solicitud. El contenido puede ser transferido a tiempo real o descargado de la red en formatos «comprimidos» de distribución. La calidad del formato de distribución es generalmente proporcional a sus requisitos de ancho de banda, y los gestores de una colección deberán tomar sus decisiones sobre tipos de formato de distribución basadas tanto en los requisitos de usuario como en la infraestructura que hace posible dicha distribución. Los populares formatos Quick Time y Real Media han demostrado su capacidad en funciones de transferencia de datos a tiempo real (streaming) de la misma forma que el formato MP3 (MPEG1 capa 3) es adecuado para descargas, aunque pueda también ser transmitido a tiempo real.

6.6.4.3      Ciertos tipos de material requerirán la creación de dos ficheros WAV maestros: el primero será el máster de archivo o preservación cuya virtud será replicar exactamente el formato y condición del material original; el segundo será una copia máster de difusión, que podrá haber sido procesada con el fin de mejorar la calidad del sonido original. Este segundo máster permitirá la creación de copias de difusión en función de las necesidades. Se supone que los formatos de distribución evolucionan y cambian a un ritmo más rápido que los formatos máster.

6.6.5 Sistemas de búsqueda e intercambio de datos

6.6.5.1      La facilidad para descubrir un contenido establece el límite de uso del material. Para garantizar un uso abundante, el contenido debe hacerse visible a través de diversos medios.

6.6.5.2      El protocolo cliente-servidor Z39.50 permite la búsqueda y recuperación de información sobre bases de datos remotas. Su uso está extendido entre bibliotecas y centros de educación superior y su existencia es anterior a internet. Debido a su amplia utilización se recomienda establecer en la base de datos un servicio compatible con Z39.50. Sin embargo, en el entorno de red este protocolo está siendo rápidamente substituido por SRU/SRW (Search/Retrieval via URL y Search/Retrieve Web service respectivamente). SRU es un protocolo estándar de búsqueda de información a través de internet (formularios de consulta), basado en el lenguaje XML. Utiliza CQL (Contextual Query Language), una sintaxis estándar para la representación de consultas (http://www.loc.gov/standards/sru). SRW es un servicio web que proporciona una interfaz SOAP (Simple Object Access Protocol) para consultas en colaboración con SRU. Existen varios proyectos de código abierto que respaldan el estándar SRU/SRW en relación con los principales softwares de repositorio digital, entre ellos DSpace y FEDORA.

6.6.5.3      OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting, Iniciativa para un protocolo de recolección de metadatos), es un mecanismo para la interoperatividad de repositorios. Estos pueden exponer su estructura de metadatos a través de OAI-PMH, donde se agrega y utiliza para permitir consultas sobre contenidos. Los nodos OAI-PMH pueden ser incorporados a repositorios comunes. Por otro lado, OAI-ORE (Object Reuse and Exchange, Reutilización e intercambio de objetos) será un mecanismo valioso para la comunidad de archivos audiovisuales, pues aborda el importante requisito de la gestión eficiente de objetos de datos compuestos, en sincronía con la arquitectura de la web. Permite la descripción e intercambio de agregaciones de los recursos en la web. «Estas agregaciones, a veces llamadas objetos digitales compuestos, pueden combinar recursos distribuidos con múltiples tipos de medios (texto, imágenes, datos y vídeo)». Ver http://www.openarchives.org/

6.6.5.4      Para hacer posible el trabajo en entornos sofisticados en red se requieren contenidos y metadatos interoperativos. Esto conlleva la necesidad compartir y comprender una serie de atributos, un esquema general capaz de operar en una variedad de marcos y un conjunto de protocolos sobre intercambio de contenidos. Como siempre en el entorno digital, el objetivo se consigue mejor con la adopción de los estándares, esquemas, marcos y protocolos recomendados, descartando soluciones propietarias.

6.6.6 Derechos y permisos

6.6.6.1      Conviene recordar que todo acceso queda sujeto a los derechos establecidos sobre los ítems y al permiso del propietario sobre el uso del contenido. Existen diferentes enfoques sobre la gestión de derechos, desde «marcar» (fingerprinting) el contenido o administrar los permisos individuales al acceso hasta separar o proteger físicamente el entorno de almacenamiento. La implementación particular del sistema de gestión de derechos dependerá del tipo de documento, la infraestructura técnica y la comunidad de propietarios y usuarios, por lo que queda fuera del alcance de este documento definir o describir una alternativa en particular.