6.3 Almacenamiento de archivo

6.3.1 Paquete de Archivo de Información (AIP)

6.3.1.1      La definición en OAIS del concepto de almacenamiento de archivo incluye los servicios y funciones necesarios para el almacenamiento del Paquete de Archivo de Información (AIP). El almacenamiento de archivo abarca la gestión de datos e incluye procesos como la selección del medio de almacenamiento, la transferencia de AIP s al sistema de almacenamiento, la seguridad y validación de datos, procesos de salvaguarda o backup y restauración de datos, y finalmente la réplica de AIP s sobre nuevos medios.

6.3.1.2      Un AIP, tal y como se define en el modelo de referencia OAIS (CCSDS 650.0-B-1 Reference Model for an Open Archival Information System) es un paquete de información utilizado para transmitir objetos de archivo hacia el sistema de archivo digital, para almacenar objetos dentro del sistema y para transmitir objetos desde el sistema. Un AIP contiene tanto los metadatos que describen la estructura y el contenido de una esencia archivada como la esencia misma. Consta de múltiples ficheros de datos que conforman una entidad empaquetada de forma lógica o física. La implementación de un AIP puede variar de un archivo a otro. En cualquier caso especificará un contenedor que contenga toda la información necesaria para hacer posible la preservación a largo plazo y el acceso a los ítems archivados. El modelo de metadatos de OAIS se basa en las especificaciones de METS.

6.3.1.3      Desde un punto de vista físico, el AIP consta de tres partes: metadatos, esencia e información de empaquetamiento, que conjuntamente forman uno o más ficheros (ver 6.1.7, «Definición del objeto digital»). La información de empaquetamiento puede entenderse como un envoltorio de información que encapsula los metadatos y la esencia.

6.3.2 Conceptos básicos del almacenamiento de archivo

6.3.2.1      El almacenamiento de archivo aporta los medios para almacenar, preservar y ofrecer acceso al contenido archivado. En sistemas de pequeño tamaño el almacenamiento puede ser autónomo y operarse de forma manual, pero en sistemas de mayores dimensiones el almacenamiento se acostumbra a implementar en conjunción con aplicaciones de catalogación, sistemas de administración de activos, sistemas de recuperación de información y sistemas de control de acceso. El objetivo reside en controlar y manejar el contenido archivado, así como proporcionar una manera controlada de acceder a ese contenido.

6.3.2.2      El almacenamiento de archivo debe estar conectado a los dispositivos responsables de la captura y creación del objeto digital a archivar y debe proporcionar una interfaz segura y fiable que pueda ser usada para importar activos al sistema de almacenamiento.

6.3.2.3      Un sistema utilizado para el almacenamiento de contenido de archivo debe ser fiable en diferentes aspectos: debe estar disponible sin interrupciones significativas y debe ser capaz de informar al sistema o al usuario encargado de la importación de contenido sobre el éxito o fracaso de la operación, permitiendo de esta forma a la parte importadora, en caso de éxito, la eliminación de la copia de captura del fichero de archivo. El almacenamiento de archivo debe también ser capaz de preservar durante un largo periodo de tiempo el contenido que gestiona y protegerlo de todo tipo de fallos y desastres.

6.3.2.4      Un sistema de almacenamiento de archivo debería construirse de acuerdo con las necesidades de su propietario funcional. Deberá dimensionarse adecuadamente para llevar a cabo las tareas encomendadas y gestionar la capacidad requerida en operaciones cotidianas. Además, el almacenamiento de archivo deberá proporcionar acceso controlado al contenido que gestiona para aquellos usuarios que tengan permisos o derechos de acceso a dicho contenido.

6.3.3 Sistemas digitales de almacenamiento masivo (DMSS)

6.3.3.1      Un sistema digital de almacenamiento masivo (Digital Mass Storage System, DMSS) está basado en las tecnologías de la información y la comunicación (TIC), diseñado e implementado para almacenar y mantener grandes cantidades de datos para un cierto periodo extendido de tiempo. Estos sistemas aparecen en diversas formas. Un DMSS básico podría ser un ordenador personal con suficiente espacio de disco duro y algún tipo de catálogo que pueda ser usado para supervisar los activos que el sistema posee. Un DMSS más complejo consistirá quizá en un sistema de almacenamiento sobre disco duro y/o cinta y un grupo de ordenadores que controlen dicho sistema. Un DMSS puede contener también diversos niveles o capas de almacenamiento con diferentes características. Un disco duro conectado a través de un canal rápido de fibra puede utilizarse para almacenar temporalmente activos cuyo tiempo de acceso sea decisivo, mientras se opta por un segundo nivel de almacenamiento basado en discos duros de menor coste y rendimiento para material cuyo tiempo de acceso sea de menor trascendencia. Finalmente, el almacenamiento basado en cinta constituirá el nivel más efectivo en relación a su coste.

6.3.3.2      Un sistema de administración jerárquica del almacenamiento (Hierarchical Storage Management, HSM) es la opción más común en sistemas de gran tamaño donde se dispone de diferentes tecnologías de almacenamiento que deben constituir una unidad funcional. El sistema HSM deberá coordinar el rendimiento de estas diferentes tecnologías de almacenamiento. Los sistemas a gran escala también pueden diseminarse geográficamente con el fin de mejorar el rendimiento y la tolerancia a fallos.

6.3.4 Introducción a los tipos y formatos de cinta de datos

6.3.4.1      Lo que sigue es una visión general de algunos de los principales formatos y sistemas de automatización basados en cinta disponibles para el almacenamiento de contenido audiovisual en formato de datos. Las cintas de datos se utilizan únicamente en conjunción con otros componentes de un DMSS. Resulta prudente comenzar esta comparación entre varios tipos de formatos de cinta de datos recordando que no existe el soporte definitivo y que, independientemente de otras consideraciones, los soportes resultarán viables solo mientras sean avalados por los sistemas de datos a los cuales están incorporados.

6.3.5 Rendimiento de la cinta de datos

6.3.5.1      La geometría y dimensiones del formato determinan su funcionamiento. La velocidad de transferencia de datos, un aspecto de su rendimiento, es el producto directo del número de pistas grabadas y leídas de manera simultánea, así como de la velocidad del cabezal de datos, la densidad lineal del medio y la codificación de canal. Las carcasas de cinta físicamente más ligeras y de menores dimensiones pueden, por ejemplo, desplazarse con mayor rapidez en una biblioteca robotizada. La densidad de datos es el producto de:

6.3.5.1.1   los compromisos entre longitud y grosor de la cinta;
6.3.5.1.2   el ancho de pista y la distancia entre pistas;
6.3.5.1.3   la densidad lineal de datos útiles25 para cada pista.


25. En referencia a la carga útil de datos, del inglés payload, carga con rédito (n. de los t.).

6.3.6 Clases de capa magnética

6.3.6.1      Existen dos tipos principales de capas o películas magnéticas: las basadas en partículas26 o las obtenidas por evaporación. Las primeras capas magnéticas para cinta de datos utilizaban óxidos de metales, como las cintas de vídeo, mientras que las más recientes usan partículas de metal (cintas MP, Metal Particles). El hierro puro, con capas de pasivación inerte de cerámica y óxido, se dispersa sobre polímeros aglutinantes aplicados uniformemente sobre una película fina o substrato de PET (tereftalato de polietileno) o PEN (polinaftalato de etileno) el cual, a su vez, aporta estabilidad dimensional y resistencia a la tensión. La capa magnética de algunas de las cintas de mayor densidad disponibles hoy en día se basa en una hoja de metal evaporado de aleaciones de cobalto u otros materiales similares a los de los discos duros. Con ello se consigue una muy alta pureza del material magnético depositado que permite capas más finas. La mayoría de cintas de metal evaporado (cintas ME, Metal Evaporated) tienen una cobertura protectora de un polímero similar al material aglutinante que se encuentra en las cintas MP. Las formulaciones más recientes incluyen además una capa protectora de cerámica. Varias de las primeras cintas del tipo ME han dado fallos por delaminación sometidas a un uso intensivo (Osaki 1993:11).


26, También llamadas a veces «pigmentos» (n. de los t.).

6.3.7 Diseño de la carcasa

6.3.7.1      Se utilizan dos tipos básicos de carcasas: casetes de doble eje, que permiten tiempos de acceso más cortos, y cartuchos de eje único, capaces de ofrecer mayor capacidad por volumen físico.

6.3.7.2      Entre los casetes de doble eje se incluye:

• cinta de ancho 3,81mm, principalmente DDS [derivado del DAT]
• QIC [cartucho de cuarto de pulgada, 1/4”] y Travan
• formatos de 8mm, incluyendo Exabyte y AIT
• DTF
• Storagetek 9840

6.3.7.3      Entre los cartuchos de eje único:

• formatos IBM MTC y Magstar como 3590, 3592 y TS1120
• Quantum S-DLT y DLT-S4
• LTO Ultrium [100, 200, 400 & 800 GB]
• Storagetek 9940 y T10000
• Sony S-AIT

6.3.7.4      No existe un diseño necesariamente superior a otro para el almacenamiento a largo plazo, pues la vida útil del soporte viene determinada por una serie de detalles específicos de cada formato. Por ejemplo, algunos de los cartuchos de eje único y media pulgada (1/2”) tienen guías de gran diámetro dentro de la carcasa que aseguran una mínima fricción y una adecuada conducción de la cinta. Se han experimentado problemas con el mecanismo de enganche en cartuchos viejos de eje único, aunque los diseños más recientes presentan mayor fiabilidad en este aspecto. Algunos casetes de doble eje pueden dejarse aparcados a medio camino del recorrido de cinta, minimizando así el tiempo de rebobinado hasta alcanzar un determinado fichero. Esta práctica se opone a la tradicional aplicada en los archivos audiovisuales, basada en el bobinado completo a baja velocidad antes del almacenamiento para lograr así que solo la cinta inicial de guía (a menudo cinta blanca) se vea expuesta al mecanismo de enhebrado. Generalmente las cintas no incorporan una carcasa herméticamente sellada como las que protegen los discos duros.

6.3.8 Escaneo lineal y helicoidal de cinta

6.3.8.1 Las cintas de datos pueden ser grabadas (escritas) o reproducidas (leídas) mediante un cabezal simple, generalmente descrito como lineal, o bien mediante un cabezal rotatorio o helicoidal. Las cintas lineales suelen albergar un trazado de pistas en forma de serpentina. Se argumenta que el vaivén en el transporte de la cinta puede conllevar un desgaste, el llamado efecto de pulido27. En la práctica, las cintas modernas se diseñan para soportar un alto número de pasadas sin acusar desgaste. Sin embargo, es aún aconsejable acceder a contenidos de uso frecuente desde un disco duro. Las cinta en general, sujeta a descomposición química debido a la hidrólisis y otras causas, tendrá un mejor comportamiento sobre guías y demás partes fijas del transporte a velocidades alrededor de 1-2m/s o quizás mayores, las típicas para formatos con cabezal fijo o lineal. Para formatos con cabezales rotatorios o helicoidales nos encontraremos con altas velocidades relativas entre cinta y cabezal. Estas altas velocidades relativas acrecientan el efecto de «colchón» o «burbuja» de aire entre la superficie de la cinta y los cabezales de lectura/escritura, por mucho que la velocidad lineal de la cinta sobre las partes fijas de guías y cabezales sea mucho menor. De ahí la habitual confusión en este aspecto.


27. Del inglés shoe-shine effect (n. de los t.).

6.3.9 Dispositivos de acceso y elementos de almacenamiento auxiliares

6.3.9.1      Formatos como AIT incluyen memorias MIC (Memory in Cassette) de estado sólido integradas en el cartucho, capaces de almacenar información posicional del fichero de forma similar a la tabla de contenidos (Table of Contents, TOC) de un Disco Compacto (CD) para agilizar la localización de los datos. El formato DTF usa memoria RF.28


28. Digital Radio Frequency Memory, DRFM (n. de los t.).

6.3.10 Obsolescencia de formatos y ciclos tecnológicos

6.3.10.1    La naturaleza misma del almacenamiento de datos conlleva un constante progreso y desarrollo, lo que implica cambios inevitables y una continua obsolescencia. La gestión realista del contenido a largo plazo debe asumir los hechos y construir sobre la continua evolución y actualización del equipo y los medios grabables. Aunque la infraestructura central como el cableado de datos o las bibliotecas de almacenamiento pueda seguir en servicio durante diez o hasta veinte años, las unidades individuales de lectura/escritura y las cintas tienen una vida finita mucho menor. Todos los principales formatos de cintas de datos disponen de planes de desarrollo y proyectan actualizaciones en periodos que van de los 18 meses a los 2 años. La retrocompatibilidad para el acceso exclusivo de lectura se garantiza a veces sobre una o dos generaciones en cualquier familia común de dispositivos. Como resultado, cada generación de dispositivos de cinta y sus medios grabables pueden tener una viabilidad entre los 4 y 6 años, tras los cuales resulta esencial la migración de los datos a un nuevo formato.* También el coste de mantenimiento del equipo propio de los sistemas de almacenamiento masivo tiende a incrementarse notablemente cuando este supera el tiempo de vida útil o el periodo de garantía. Entonces puede resultar difícil la obtención de piezas nuevas de recambio para las bibliotecas o las unidades de cinta, por ejemplo. En el siguiente cuadro se incluye un resumen de los planes de desarrollo de diferentes fabricantes. Muchos formatos disponen de compatibilidad exclusivamente de lectura con al menos una generación previa.

Familia 1a Generación 2a Generación 3a Generación 4ah Generación 5a Generación 6a Generación
Quantum SDLT SDLT220 110GBytes SDLT320 160GBytes SDLT600 300GBytes DLT-S4 800GBytes    
IBM     3592 2004 300GB 40MB/s TS1120 2006 700GB 104MB/s    
Sun - Storagetek   9940B 2002 200GB 30MB/s T10000 2006 500GB 120MB/s T10000B-2008 ITB 120MB/s    
LTO LTO-1 2001 100GB 20MB/s LTO-2 2003 200GB 40MB/s LTO-3 2004 400GB 80MB/s LTO-4 2007 800GB 120MB/s LTO-5 sin fecha (2009+) 1.6TB 180MB/s (estimado) LTO-6 sin fecha  (2011+) 3.2TB 270MB/s (estimado)
Sony S-AIT S-AIT 2003 500 GB 30MB/s S-AIT2 2006 800 GB 45MB/s        
Sony AIT     AIT-3 2003 100 GB 12MB/s AIT-4 2005 200 GB 24MB/s    

Cuadro 1, sección 6.3: Plan de desarrollo proyectado para cintas de datos

 


* Esto conlleva un cierta generación de residuos y daño medioambiental que va más allá del ámbito de la discusión puramente tecnológica, aunque en realidad una biblioteca de viejas cintas de datos consuma a gran escala más polímeros y derivados petroquímicos por producto que un sistema actual de alta densidad, dotado de soluciones de almacenamiento robotizadas energéticamente más eficientes que ocuparán, al mismo tiempo, un menor espacio físico.

6.3.11 Robots automáticos o recuperación manual de datos

6.3.11.1    Para operaciones a pequeña escala es posible realizar una copia de seguridad de datos desde una estación de trabajo (un ordenador) a una unidad de cinta, y ubicar manualmente los cartuchos de cinta para su almacenamiento en una estantería tradicional. Incluso los sistemas en red a pequeña escala podrán llevar a cabo un procedimiento de salvaguarda de datos manual de sus contenidos (ver también el capítulo 7, «Opciones a pequeña escala para sistemas de almacenamiento digital»). Las mismas pautas generales para entornos de almacenamiento son aplicables a todo tipo de cintas magnéticas, aunque deba prestarse especial atención a minimizar la presencia de polvo y otras substancias contaminantes. Para operaciones a gran escala, y en particular allí donde los costes laborales sean altos y exista presupuesto para el equipamiento adecuado, será deseable disponer de un cierto grado de automatización en favor de sistemas más económicos que los puramente manuales. El grado de automatización dependerá de la escala y la consistencia de la tarea, el tipo de acceso al contenido y los costes relativos de los principales recursos.

6.3.11.2    Cargadores automáticos y bibliotecas robotizadas de cinta. El siguiente paso tras las unidades de cinta autónomas es el cargador automático o autocargador a pequeña escala, dotado de una unidad de lectura/escritura de cinta — ocasionalmente dos — y de una fila o carrusel de cintas de datos dispuestas secuencialmente para alimentar la unidad y permitir de este modo operaciones de salvaguarda (de datos. Una de las principales diferencias entre los autocargadores y las bibliotecas robotizadas a gran escala reside en que, en el primer caso, las cintas grabadas no están registradas por el software de salvaguarda de datos en una base de datos centralizada que pueda permitir la recuperación automatizada. Las tareas de búsqueda, recuperación y recarga de ficheros individuales siguen en manos de un operador humano. Todo lo que los autocargadores permiten es, tal y como su nombre indica, la lectura y/o escritura secuencial automatizada con el fin de superar las limitaciones de capacidad que cada cinta individual impone. Desaparece así del proceso el operador humano responsable de cambiar de cinta durante el proceso de salvaguarda.

6.3.11.3    Por contra, hasta la más pequeña de las bibliotecas robotizadas de cinta está programada para comportarse como un sistema de almacenamiento único e independiente. La ubicación de ficheros individuales en diferentes cintas resulta transparente al usuario. El sistema de control de la biblioteca supervisa las direcciones de los ficheros en cada cinta, así como la posición física de las cintas en la biblioteca. Ante cualquier recarga de datos o reubicación de una cinta, el subsistema robotizado reescaneará los compartimentos de cintas durante la inicialización para actualizar su inventario con metadatos provenientes de códigos de barras, etiquetas de radiofrecuencia (rf tags) o chips de memoria ubicados en las carcasas de las mismas cintas.

6.3.11.4    Las bibliotecas de cintas de mayores dimensiones presentan ventajas sobre las de menor tamaño. Pueden ser construidas con redundancia y hallarse diseminadas, con lo que se minimiza el tiempo de inactividad y la carga de procesos de escritura/lectura se equilibra entre diversos sistemas similares. Las bibliotecas de gran tamaño también pueden usarse como sistema multipropósito: pueden, por ejemplo, mantener las copias de seguridad de una empresa a la vez que manejar el contenido audiovisual en archivo.

6.3.11.5    Los casetes o cartuchos de cinta de datos utilizados en un sistema robotizado deberán tener algún tipo de identificación (código de barras, etiquetas de radiofrecuencia, etc.). Estos sistemas ópticos o electromagnéticos de reconocimiento operan a veces en conjunción con memorias MIC para suplementar información sobre la identificación y contenido de la cinta. Algunos formatos disponen de un sistema global de identificación que asigna códigos de barras a cada casete o cartucho, de modo que cualquier cinta utilizada en una biblioteca robotizada pueda ser reconocida en otro sistema de biblioteca.

6.3.11.6    Programas de salvaguarda y migración. Calendarios. Existe cierta confusión tanto en círculos de tecnologías de la información y la comunicación (TIC) como en comunidades más amplias en lo referente al propósito y operación de los archivos de datos a largo plazo. Dos malentendidos muy populares son los siguientes. En primer lugar, el que afirma que archivar es el proceso de desplazar material de uso poco frecuente desde dispositivos de almacenamiento sobre disco conectados en red, de alto coste, hacia otros dispositivos más asequibles, offline, en bibliotecas inaccesibles desde donde quizás ya no pueda recuperarse. En segundo lugar, el que asegura que el proceso de backup es la rutina programada de forma periódica — diaria o semanalmente — de copia completa de todo lo almacenado en el sistema.

6.3.11.7    En relación al primer malentendido, la realidad indica que algunos de los materiales más importantes y valiosos pueden no usarse durante meses o años, pero su supervivencia debe seguir garantizada sin titubeos. Análogamente, respecto al segundo malentendido, si se trabaja con las reglas adecuadas, puede que no sea preciso replicar diaria o semanalmente grandes cantidades de material si solo se actualizan pequeños porcentajes. En la práctica, aun cuando el establecimiento de un plan estricto de replicación de datos en diferentes medios y ubicaciones resulte esencial para minimizar el riesgo de fallos tecnológicos y garantizar la recuperación ante desastres, las características particulares del patrimonio digital requieren ciertos procedimientos que difieren de la gestión de datos estandarizada por las tecnologías de la información.

6.3.11.8    Aunque los sistemas convencionales de administración jerárquica del almacenamiento (Hierarchical Storage Management, HSM) puedan optimizarse para realizar copias de seguridad periódicas y desplazar contenidos de baja demanda a ubicaciones menos accesibles, otros sistemas con mejores prestaciones podrán adaptarse más a las reglas de funcionamiento de archivos con diferentes tamaños y niveles de acceso. Una organización de tamaño medio puede llegar a transferir unos 100GB de datos de audio cada semana, o bien 1TB de vídeo. Es razonablemente sencillo garantizar la copia de los materiales tan pronto como se integran en el sistema, así como mantener el acceso a los más consultados.

6.3.11.9    Alguna de las tareas primordiales del software de gestión del almacenamiento son la optimización del uso de los recursos informáticos y la administración de los dispositivos en el ámbito del equipamiento, así como la regulación del tráfico de datos con la menor latencia posible para el usuario. El software HSM ofrece una serie de opciones para la migración de ficheros desde disco duro en red hacia cinta, opciones que pueden ser de base temporal (anterior a una cierta fecha), dimensional (mayor de un cierto tamaño), posicional (ubicados en carpetas determinadas) o relacionadas con determinados límites superiores o inferiores de ocupación de disco duro.

6.3.11.10 Cuando se generan tanto ficheros de alta resolución como copias de acceso a baja resolución, es típico que los primeros sean los destinados a la preservación y los trasladados a cinta con el fin de liberar espacio de disco duro, que es más caro. Se requiere un compromiso entre la disponibilidad del material y la optimización del uso de las unidades de cinta y otros medios grabables. Si el acceso a las cintas es muy frecuente, las repetidas operaciones de carga y descarga, rebobinado y reproducción degradarán el rendimiento del sistema. Los sistemas más sofisticados de gestión del contenido a menudo incorporan niveles más bajos de gestión de almacenamiento que hacen que los usuarios sean menos conscientes de los ficheros y componentes que soportan el sistema.

6.3.12 Selección y supervisión del medio de cinta de datos

6.3.12.1    Como en cualquier sistema convencional de preservación, resulta importante no solo establecer copias de seguridad y redundancia en caso de fallos en los medios o componentes grabables, sino también establecer y medir estándares de rendimiento para las partes vitales del sistema. Programas informáticos como SCSI-Tools permiten chequeos menos exhaustivos de las unidades individuales de cinta y otros dispositivos en red a favor de determinar si el sistema completo funciona a un nivel óptimo. Las cintas LTO disponen de una interfaz para la supervisión de datos, una funcionalidad que raramente se utiliza a pesar de sus beneficios para sistemas de archivo. Algunos sistemas HSM pueden controlar de manera regular la calidad de los activos almacenados. Estos sistemas supervisan la tasa de error de las cintas al mismo tiempo que los usuarios acceden a sus activos, o bien leen automáticamente estos activos, sin intervención humana, cuando la cinta no haya sido utilizada durante un cierto periodo de tiempo.

6.3.13 Costes

6.3.13.1    El coste del almacenamiento de datos en cinta se reparte habitualmente en cuatro áreas:

  • cintas grabables: disponibilidad y recambio del medio cinta principal y de backup cada 3-5 años
  • unidades de cinta: disponibilidad y recambio cada 1-5 años, con servicio de asistencia técnica o garantía
  • biblioteca robotizada: adquisición y mantenimiento con ciclo de vida de unos 10 años
  • programas informáticos: adquisición, desarrollo, integración y mantenimiento

6.3.13.2    En un sistema manual los costes de almacenamiento en estantería resultan menores, aunque el espacio requerido para la plantilla de trabajadores es mayor, como lo es el coste de recuperación y chequeo manual de los datos. En un sistema automático robotizado, gran parte de los costes por intervención humana quedan compensados por el desembolso inicial en equipos y programas informáticos. Las bibliotecas robotizadas de cintas a gran escala pueden adquirirse de forma modular para distribuir el coste entre varios años, al ritmo de la demanda de crecimiento. Durante la vida útil de una biblioteca de cintas robotizada, componentes individuales tales como las unidades de cinta deberán ser reemplazados por nueva tecnología cada tres a cinco años. Si el acceso al contenido de un archivo es constante la vida útil de las unidades de cinta puede reducirse considerablemente, hasta llegar a ser de un año o quizá menos. Los medios y unidades viejas pueden mantenerse a efectos de redundancia si fuera necesario. Si el crecimiento de un archivo no es muy rápido podrá darse la coexistencia de dos generaciones de cintas y unidades — la presente y la anterior — mientras dure la migración del contenido del fondo del archivo hacia la nueva generación tecnológica. Si el archivo crece a un ritmo continuo, puede resultar económicamente efectivo dimensionar la biblioteca para almacenar solo la cantidad de contenido que sea depositada durante el tiempo de vida útil de la tecnología actual, para adquirir posteriormente una nueva biblioteca de mayores dimensiones a fin de acoger tanto el nuevo contenido como el viejo proveniente de la necesaria migración a la nueva tecnología. Esta última opción será también necesaria si las tecnologías vieja y nueva no pueden coexistir en la misma unidad.

6.3.13.3    Es una buena práctica empresarial mantener al menos una copia redundante de datos externalizada o geográficamente distante. Un radio de 20 a 50Km es por lo general suficiente para protegerse de desastres naturales u ocasionados por la mano del hombre y, al mismo tiempo, permitir la recuperación manual de los datos en cuestión de horas. Para reducir aún más el riesgo, deberían guardarse copias redundantes en diferentes lotes o tipos de medios, o hasta en diferentes tecnologías. Algunas cintas de datos son producto de un solo fabricante, con lo que el riesgo de un fallo puntual reiterado se incrementa. Tres copias de datos son más seguras que dos, y aunque los costes de medios se incrementen, los de programas y equipo informático están solo un poco por encima de los de la primera copia.

6.3.14 Introducción a los discos duros (HDD)

6.3.14.1    Los discos duros han servido como principal memoria y almacén de datos de los ordenadores desde que IBM introdujera su disco duro modelo 3340 en 1973. Dotado de 30MB de memoria fija más 30MB extraíbles y designado con el nombre operativo de 30/30 —por cuya razón fue apodado Winchester, en recuerdo del famoso rifle— el pionero diseño de sus cabezales hizo viable la operatividad de los discos duros. Las posteriores reducciones en tamaño y los más recientes desarrollos en el diseño de cabezales y discos han incrementado enormemente la fiabilidad de estos dispositivos, hasta los robustos diseños actuales de uso cuotidiano.

6.3.14.2    Los gestores de archivo responsables del mantenimiento de datos han considerado tradicionalmente el disco duro demasiado poco fiable para alojar una copia única de un ítem, a la par que demasiado caro si se utilizan discos en batería, aunque así sea más fiable. Consecuentemente, los datos de un disco duro han sido duplicados en múltiples copias sobre cinta para garantizar su supervivencia. Como ya se ha mencionado (6.1.4: «Aspectos prácticos de las estrategias de protección de datos»; 7.6: «Almacenamiento de archivo»), todos los sistemas de datos deben contar con copias múltiples y separadas de todos los datos. Aunque los expertos tienden a coincidir en la opción de una batería de discos duros reforzada con duplicados múltiples sobre cinta como el sistema de datos más seguro, la continua reducción de costes y la mejora en la fiabilidad convierten la opción de duplicados idénticos de datos sobre discos duros separados en una posibilidad factible. Persiste sin embargo el principio deseable de múltiples soportes, por lo que el almacenamiento exclusivo sobre disco duro constituye un riesgo.

6.3.15 Fiabilidad

6.3.15.1    La pérdida de datos como consecuencia de fallos en el disco o roturas del cabezal ha creado entre los profesionales suspicacias acerca del disco duro, aunque los fabricantes puedan anunciar hoy en día tasas anuales de error de menos del 1% y una vida operacional de 40.000 horas (Plend: 2003). Existen unidades de alta fiabilidad con una vida operacional aún más dilatada, denominada por los fabricantes como «tiempo medio entre errores». Aunque los discos duros son autónomos y están sellados y por tanto protegidos contra daños, muchos errores en las unidades de disco duro ocurren por dos motivos opuestos: como resultado del desgaste por uso continuado, o como consecuencia del apagado y puesta en marcha de la fuente de alimentación. El dilema reside en decidir si dejar el disco duro en marcha, e incrementar así el desgaste, o apagarlo y encenderlo e incrementar así el riesgo de fallo.

6.3.16 Descripción, complejidad y coste del sistema

6.3.16.1    Como se comentó en el capítulo 2, «Principios digitales básicos», las generaciones más recientes de ordenadores disponen de suficiente capacidad para manipular grandes ficheros de audio. Todos los ordenadores actuales incorporan discos duros de la adecuada velocidad y tamaño a los que puede añadirse un disco duro externo a través de un puerto USB, FireWire o SCSI. La complejidad asociada y el grado de pericia requeridos para usar tales sistemas no es muy superior a la que exige cualquier ordenador de sobremesa.

6.3.16.2    Cuando se almacenan en discos duros grandes cantidades de material audiovisual para el que se debe facilitar acceso, se acostumbra a agrupar los discos en una estructura de RAID (Redundant Array of Independent Disks) o batería redundante de discos independientes. La agrupación en RAID incrementa la fiabilidad del sistema de discos duros y la velocidad de acceso resultante mediante la consideración del conjunto de discos como un gran disco duro único. Si cualquiera de los discos individuales que constituye el RAID falla, podrá ser reemplazado de tal manera que todos los datos que almacena se reconstruyan con datos redundantes provenientes de los demás discos de la batería. El índice de fallos que el sistema será capaz de tolerar, así como la velocidad de recuperación, serán producto de los niveles del RAID. El RAID no se diseña como una herramienta de preservación de datos sino como un modo de mantener el acceso a través de los inevitables fallos de disco. El nivel apropiado de RAID para un escenario en concreto, así como el requisito de duplicación de los controladores del RAID, dependerá de las circunstancias particulares y la frecuencia precisada en la duplicación de datos. La agrupación en RAID requiere que todos los discos del conjunto estén en funcionamiento cuando cualquier parte de ellos esté en uso. Todos los RAIDs que contengan material de archivo, como en cualquier tipo de datos digitales, deberán ser duplicados más de una vez sobre otros soportes.

Capacidad Capacidad
nativa de la cinta (GB)
Número
de cintas
Número
recomendado
de unidades
lectoras de
cinta
Número
máximo de
unidades
Precio del
sistema
(€)
Precio por
unidad de
cinta (€)
Precio por
unidad
lectora (€)
Coste por GB (€)
10 TB 800 13 2 4 20.480 97 7.625 2,05
50 TB 800 63 4 16 56.800 97 10.175 1,14
100 TB 800 125 8 16 134.050 97 12.725 1,34
200 TB 800 250 12 16 205.350 97 12.725 1,03
500 TB 800 625 18 56 446.938 97 15.975 0,89
1000 TB 800 1250 36 88 864.517 97 15.975 0,86
2000 TB 800 2500 72 176 1.687.690 97 15.975 0,84

Cuadro 2, sección 6.3: Costes de inversión para sistemas de almacenamiento basados en tecnología LTO-4

 

Capacidad Mantenimiento hardware 1 año (€) Mantenimiento software 1 año (€) Mantenimiento hardware 2 años (€) Mantenimiento software 2 años (€) Mantenimiento hardware 3 años (€) Mantenimiento software 3 años (€) Mantenimiento hardware 4 años (€) Mantenimiento software 4 años (€) Mantenimiento hardware 5 años (€) Mantenimiento software 5 años (€)
10 TB 2.420 n/a 2.420 n/a 2.420 n/a 2.514 n/a 2.514 n/a
50 TB 3.454 n/a 4.958 n/a 4.958 n/a 4.958 n/a 4.958 n/a
100 TB 11.808 490 13.817 490 13.817 490 13.817 490 13.817 490
200 TB 15.787 582 19.323 582 19.323 582 19.323 582 19.323 582
500 TB 27.380 1.068 34.111 1.068 34.111 1.068 34.111 1.068 34.111 1.068
1000 TB 47.542 2.115 66.734 2.115 66.734 2.115 66.734 2.115 66.734 2.115
2000 TB 99.272 4.221 99.272 4.221 99.272 4.221 99.272 4.221 99.272 4.221

Cuadro 3, sección 6.3: Costes de mantenimiento anual de sistemas de almacenamiento basados en tecnología LTO-4

Notas sobre los cuadros:

  • Los precios dados son promedios calculados a partir del catálogo de precios de múltiples proveedores. El precio final que el cliente deberá abonar resultará por lo general algo menor.
  • Los precios se refieren a la capacidad neta de almacenamiento. Deberá considerarse al menos el doble de esta capacidad para contemplar el almacenamiento de copias de seguridad.
  • El precio del sistema incluye el coste de las cintas y unidades de la capacidad adecuada, pero no incluye ningún software o hardware HSM.
  • Los cuadros indican solo los costes de inversión y tarifas de mantenimiento que deberán abonarse al proveedor. Aparte habrá que incluir en los cálculos individuales los costes propios de electricidad, refrigeración, sala de máquinas, gestión, etc. La electricidad y la refrigeración de un sistema de biblioteca de cintas puede costar alrededor del 10% del total de su precio de compra durante un periodo de cinco años.

 

Capacidad Drive technology Capacidad
original
de la cinta
(GB)
Número
de cintas
System price (€) Precio del
sistema (€)
Precio por
unidad de
cinta (€)
5 TB SATA 500–1000 5–10 11.884 1.000 2,38
10 TB SATA 750–1000 10–14 19.997 1.000 2,00
50 TB SATA/FATA 1000 50 124.334 1.800 2,49
100 TB SATA/FATA 1000 100 230.914 1.800 2,31
200 TB SATA/FATA 1000 200 456.942 1.800 2,28
500 TB SATA/FATA 1000 500 1.202.726 1.900 2,41
1000 TB SATA/FATA 1000 1000 2.566.513 1.900 2,57
2000 TB SATA/FATA 1000 2000 4.782.584 1.900 2,39

Cuadro 4, sección 6.3: Costes de inversión para sistemas de almacenamiento basados en discos duros

 

Capacidad Mantenimiento hardware 1 año (€) Mantenimiento software 1 año (€) Mantenimiento hardware 2 años (€) Mantenimiento software 2 años (€) Mantenimiento hardware 3 años (€) Mantenimiento software 3 años (€) Mantenimiento hardware 4 años (€) Mantenimiento software 4 años (€) Mantenimiento hardware 5 años (€) Mantenimiento software 51 años (€)
5 TB 826 750 826 750 826 750 1.845 750 1.845 750
10 TB 1.206 1.125 1.206 1.125 1.206 1.125 2.600 1.125 2.600 1.125
50 TB 5.822 6.125 5.822 6.125 5.822 6.125 12.365 6.125 12.365 6.125
100 TB 10.514 8.500 10.514 8.500 10.514 8.500 22.391 8.500 22.391 8.500
200 TB 21.724 12.750 21.724 12.750 21.724 12.750 44.956 12.750 44.956 12.750
500 TB 57.061 37.250 57.061 37.250 130.394 37.250 130.394 37.250 130.394 37.250
1000 TB 130.203 66.250 130.203 66.250 263.537 66.250 263.537 66.250 263.537 66.250
2000 TB 223.778 124.250 223.778 124.250 477.121 124.250 477.121 124.250 477.121 124.250

Cuadro 5, sección 6.3: Costes de mantenimiento anual de sistemas de almacenamiento basados en disco duro

Notas sobre los cuadros:

  • Los precios dados son promedios calculados a partir del catálogo de precios de múltiples proveedores. El precio final que el cliente deberá abonar resultará por lo general algo menor.
  • El precio del sistema incluye el coste de discos duros de la capacidad adecuada según se requiera.
  • Los cuadros indican únicamente los costes de inversión y tarifas de mantenimiento que deban abonarse al proveedor. Aparte habrá que incluir en los cálculos individuales los costes propios de electricidad, refrigeración, sala de máquinas, gestión, etc. La electricidad y la refrigeración de un sistema de discos duros puede costar alrededor del 30-40% del total de su precio de compra durante un periodo de cinco años.

6.3.17 Almacenamiento exclusivo sobre disco duro

6.3.17.1    Los RAID pueden escalarse dentro de los límites del sistema. Sin embargo, los discos duros pueden escalarse de manera indefinida mediante la simple adición de más unidades. Desde la introducción del IBM 3340 la capacidad de almacenamiento de los discos duros se ha incrementado rápidamente, de forma casi exponencial, al tiempo que se reducían sus costes. Estos cambios, unidos al incremento de la fiabilidad, han conducido a algunos a sugerir la posibilidad de usar discos duros tanto para el almacenamiento principal como para el secundario (copia de seguridad). Pero pueden ponerse tres reparos a esta propuesta. En primer lugar, la vida útil de un disco duro se estima en términos de tiempo de uso, es decir, número de horas operativas. No existe un test sobre la esperanza de vida de un disco duro poco usado. En segundo lugar, la buena práctica de distribuir los datos entre diferentes tipos de medio distribuye también el riesgo de fallos: a la luz de esta experiencia la propuesta debe ser considerada muy cautelosamente. En tercer y último lugar, no hay manera de comprobar el estado de un disco duro en su estantería sin ponerlo antes en marcha (encender su fuente de alimentación) a intervalos regulares, contrarrestando así las ventajas de mantener el disco apagado (ver más abajo la sección 6.3.20, «Supervisión de discos duros»). Los soportes múltiples (combinando, por ejemplo, cinta y disco duro) continúan siendo la opción preferida. Los discos duros deberían ser implementados dentro de un sistema integrado.

6.3.18 Sistemas de almacenamiento en disco duro

6.3.18.1    Los sistemas de almacenamiento sobre disco duro son sistemas centralizados desarrollados para maximizar el uso del almacenamiento en disco y proporcionar gran capacidad y/o rendimiento. Estos sistemas se utilizan en conjunción con ordenadores servidores, de manera que un servidor dispone apenas de una pequeña cantidad de almacenamiento interno sobre disco duro o, a veces, ninguna en absoluto. Este tipo de sistemas se utiliza a menudo como solución de almacenamiento para entornos de mediana y gran dimensión. Como alternativa, un archivo digital puede compartir un sistema de almacenamiento centralizado con un cierto número de sistemas de ordenadores. El tamaño de un sistema puede variar desde 1 terabyte a diversos petabytes. Debe señalarse que el rendimiento de un sistema de almacenamiento podrá variar notablemente en función de la configuración escogida. Por ello resulta esencial anticipar una cuidadosa planificación en función de las necesidades reales y confiar a profesionales la configuración de la estructura de almacenamiento e interfaces del sistema, con el fin de obtener el mejor rendimiento de nuestra inversión.

6.3.18.2    Los sistemas centralizados de almacenamiento en disco se diseñan para proporcionar una mejor capacidad de recuperación ante errores que los discos duros independientes. Estos sistemas permiten diferentes niveles alternativos de protección en RAID, sus componentes pueden ser redundantes a fin de evitar fallos localizados, y pueden distribuirse local o geográficamente para proteger activos valiosos antes todo tipo de fallos y desastres.

6.3.18.3    El tipo de conexión entre el sistema de almacenamiento y los ordenadores a los que sirve juega un papel importante en el rendimiento del conjunto. Existen en términos generales dos opciones principales, conocidas por sus acrónimos en inglés: NAS (Network Attached Storage o almacenamiento conectado a red) y SAN (Storage Area Network o red de área de almacenamiento). Mientras que la opción NAS utiliza una red de datos estándar como Ethernet para desplazar datos entre los ordenadores y el sistema de almacenamiento, la tecnología SAN utiliza canales conmutados de fibra. Los sistemas NAS pueden operar a velocidades de 100Mbps,29 1Gbps y 10Gbps, mientras que los SAN trabajan a 2Gbps o a 4 Gbps. Ambas tecnologías tienen campo por delante para evolucionar y se espera que su rendimiento crezca en el futuro. El diseño específico de la tecnología SAN favorece su rendimiento, factor especialmente valorado en entornos más exigentes. Por ejemplo, el tamaño del bloque de entrada/salida (I/O) puede controlarse de forma más efectiva en un entorno SAN, mientras que los protocolos de red tienden a forzar los sistemas NAS a usar tamaños de bloque I/O bastante menores. Desde un punto de vista económico, la tecnología NAS es más asequible que la SAN.


29. Mbps equivale a megabits por segundo; Gbps a gigabits por segundo (n. de los t.).

6.3.19 Vida útil de un disco duro

6.3.19.1    Como se ha indicado más arriba, la vida operativa de muchos de los discos duros disponibles en el mercado se estima en unas 40.000 horas. Un uso medio de estos dispositivos traduce este tiempo en unos 5 años de vida útil antes de ser reemplazados. Algunas mejoras aplicadas recientemente a los discos duros de sobremesa como los rodamientos fluidos o cerámicos, la lubricación superficial de la capa magnética de los discos y las técnicas especiales de estacionamiento de los cabezales pueden alargar ligeramente las expectativas de vida. Sin embargo, no existe ningún test fiable que aporte datos sobre la vida útil de discos duros poco o casi nunca utilizados, por lo que es una opción acertada planear el recambio de los discos duros de un sistema cada 5 años

6.3.20 Supervisión de discos duros

6.3.20.1    Un indicador del inminente fallo de un disco puede ser el incremento de bloques de datos erróneos. Es típico de los discos duros más recientes mostrar errores de bloque aun siendo discos recién estrenados, y muchos sistemas de datos gestionan estos bloques defectuosos simplemente reasignando la dirección del bloque en cuestión. Sin embargo, si la cantidad de bloques erróneos se incrementa, esto podría indicar que el disco duro está empezando a fallar. Existen programas informáticos que avisan del el incremento de los bloques de datos erróneos, así como de las condiciones físicas del disco que puedan indicar potenciales problemas.

6.3.21 Tecnologías de disco duro

6.3.21.1    Existen cuatro métodos principales para conectar discos duros y otros dispositivos periféricos a los ordenadores: USB (Universal Serial Bus), IEEE 1394 (FireWire), SCSI (Small Computer System Interface) y SATA/ATA (Serial Advanced Technology Attachment/AT Attachment). Cada uno de ellos tiene sus particulares ventajas según la situación. USB y FireWire son puertos de conexión multipropósito, aptos para conectar el ordenador tanto a un disco duro como a una cámara de vídeo digital o un reproductor MP3. Las opciones SCSI y SATA/ATA se usan principalmente para conectar discos duros a ordenadores o sistemas de almacenamiento en disco.

6.3.21.2    Tanto la interfaz SCSI como su sucesora SAS (Serial Attached SCSI) permiten ciclos de lectura y escritura a alta velocidad y facilitan el acceso a un mayor número de discos que los permitidos mediante SATA/ATA. Los discos SCSI pueden aceptar múltiples comandos a la vez a través del bus SCSI y no generan colas de peticiones como en SATA/ATA. Las unidades SATA/ATA resultan comparativamente más baratas. La velocidad de acceso en lectura es básicamente la misma para ambas interfaces y en el contexto del audio digital ninguna de las dos limitará las operaciones de una estación de trabajo de audio digital (también conocida por su acrónimo inglés DAW, Digital Audio Workstation). En cuanto al rendimiento, la diferencia entre los controladores y discos SCSI/SAS y SATA podrá notarse en el marco de un sistema central de almacenamiento de uso intensivo.

6.3.21.3    Los discos SCSI/SAS con canal de fibra (tecnología Fibre Channel, FC) se utilizan principalmente en entornos empresariales de alta exigencia mientras los discos SATA abundan en el mercado doméstico, aunque crece su uso en sistemas empresariales que buscan una capacidad de almacenamiento más rentable, por ejemplo, en el almacenamiento de archivo. Precisamente en este escenario la decisión final entre las tecnologías (FC) SCSI/SAS y SATA depende de la carga efectiva del sistema. Si este se usa para archivar pequeñas o medianas cantidades de contenido que no requieren de acceso intensivo, una solución basada en SATA puede ser suficiente. La decisión deberá basarse en la detallada descripción de los requisitos y en una buena negociación con el proveedor de almacenamiento.

6.3.21.4    Los discos duros conectados vía USB o FireWire pueden servir para transferir contenidos de un entorno a otro. Sin embargo, dada su poca fiabilidad, difícil supervisión y fácil extravío, no deberían ser considerados válidos para tareas de archivística aun cuando su precio resulte muy atractivo.

6.3.21.5    La interfaz por sí misma no es una indicación suficientemente consistente sobre la fiabilidad y rendimiento de un disco duro o un sistema de almacenamiento datos. El comprador/usuario debería preocuparse también por otros parámetros operativos y de configuración del sistema. Parece que la fiabilidad de los discos esté asociada con la interfaz FC SCSI/SAS. A pesar de ello, los discos duros no son por sí mismos permanentemente fiables, por lo que todos los datos de audio deberían disponer de copias de seguridad en un formato de cinta adecuado (ver 6.3.5, «Rendimiento de la cinta de datos»). (Para mayor detalle ver Anderson, Dykes y Riedel: 2003).

6.3.21.6    Hay una tecnología de almacenamiento emergente que podría gozar de una posición destacada en un futuro próximo. El almacenamiento sobre estado sólido en la forma de memorias flash se está desarrollando como alternativa a los discos rotatorios y ya se ha convertido en una alternativa a los discos duros en ordenadores de sobremesa. Algunos fabricantes de sistemas de almacenamiento han introducido también discos de estado sólido (discos flash) en sus sistemas de bajo o medio coste y planean también introducirlos en sus sistemas de alto nivel. Aunque el almacenamiento sobre estado sólido plantea todavía ciertos desafíos en lo que a fiabilidad de almacenamiento se refiere, puede convertirse en un solución viable para las necesidades de almacenamiento de la comunidad archivística. Su precio por gigabyte empieza a ser competitivo, es más respetuoso con el medio ambiente dada su menor demanda de potencia y prescinde de parte móviles (motores), lo que podría significar un mayor tiempo de vida para las unidades de almacenamiento. Una vida útil de diez años en lugar de los habituales cinco por unidad de almacenamiento podría significar una menor inversión y costes de gestión, al permitir el ahorro de uno de cada dos procesos periódicos de migración. En términos de rendimiento de lectura/escritura, el almacenamiento sobre estado sólido ya es comparable al de la tecnología de disco duro.

6.3.22 Administración jerárquica del almacenamiento (HSM)

6.3.22.1    Las funciones de almacenamiento de archivo definidas en OAIS integran en el mismo modelo conceptual la noción de la administración jerárquica del almacenamiento (Hierarchical Storage Management, HSM). Cuando se definió el estándar OAIS no se concebía aún la posibilidad de manejar cómodamente grandes cantidades de datos de ninguna otra manera. La cuestión práctica que sustenta la opción HSM consiste en la diferencia de coste entre diferentes medios de almacenamiento, es decir, la premisa por la cual el almacenamiento sobre disco duro resulta más caro que sobre cinta. En este escenario HSM ofrece un almacén virtual de información unificado, aunque en la realidad las copias de datos puedan estar diseminadas a lo largo de un buen número de tipos de soporte diferentes en función del uso y las velocidades de acceso.

6.3.22.2    Sin embargo, el coste del disco duro ha disminuido a un ritmo mayor que el de la cinta, hasta el punto de resultar equivalentes en cuanto a precio. Consecuentemente, el uso de HSM pasa a ser una opción de implementación. Bajo estas circunstancias, un sistema de almacenamiento que contenga todos sus datos en un conjunto de discos a la vez que una copia completa en un conjunto de cintas resultará un opción muy asequible especialmente para sistemas de almacenamiento digital de hasta 50 terabytes (valor que crece año tras año). Para sistemas de menores dimensiones, en cambio, un HSM completamente funcional resultará innecesario. En su lugar podrán contemplarse sistemas mucho más sencillos que administren y mantengan información sobre la localización de las copias y la edad y versión de los medios grabables, y repliquen sobre disco duro y sobre cinta el conjunto de los datos almacenados.

6.3.22.3    La opción de implementar un HSM se mantiene como preferente para sistemas de almacenamiento digital de medio y gran tamaño y continúa siendo uno de los componentes más caros de dichos sistemas.

6.3.23 Software de gestión de ficheros para sistemas de pequeño tamaño

6.3.23.1    En sistemas donde el conjunto del archivo se halle duplicado en disco duro y cinta, el propósito del software de gestión de archivos es el seguimiento de la ubicación, condición, precisión y edad de las copias en cinta. Esta funcionalidad básica para las copias de seguridad constituye una alternativa de bajo coste respecto a un HSM clásico y puede, al menos en teoría, resultar más fiable para sistemas de menor tamaño. Sin embargo, puesto que los HSM para sistemas a gran escala representan todavía una parte significativa del mercado, la industria del sector les destina los mayores esfuerzos en la investigación y desarrollo. Las soluciones de software para la gestión de ficheros a pequeña escala se desarrollan entre la comunidad de programadores y usuarios de código abierto, de donde cabe destacar tres aplicaciones NAS populares: FreeNAS, Openfiler y NASLite, además de Advanced Maryland Automatic Network Disk Archiver (AMANDA). Como en cualquier solución de código abierto, la responsabilidad de comprobar la conveniencia y fiabilidad de la propuesta recae sobre el usuario, por lo que a falta de mayor detalle esta publicación se abstiene de hacer recomendaciones específicas.

6.3.24 Verificación y recuperación de datos

6.3.24.1    Algunos programas informáticos comerciales permiten la detección automática de errores de lectura/escritura en cinta durante los procesos de backup y verificación. Esta función se implementa habitualmente mediante el chequeo de códigos de redundancia cíclica, tecnología basada en una suma de verificación entre el código y los datos que permite detectar los errores acaecidos durante la transmisión digital o el almacenamiento. Para todo sistema de archivo se recomienda la implementación de una función de comprobación de errores. Esta implementación resulta difícil sobre software de código abierto, pues el control de errores se vincula estrechamente a la especificidad del hardware en cuestión. Una opción comercial en este sentido la constituye el dispositivo lector/verificador de cartuchos LTO Veritape, de MPTapes Inc. Fuji Magnetics, por otro lado, anunció un sistema de diagnóstico basado en la lectura de un chip para casetes LTO, asociado a un software propietario.

6.3.25 Integridad y sumas de verificación

6.3.25.1    Una suma de verificación es un cálculo cuyo valor sirve para verificar que todos los datos almacenados, transmitidos o replicados se encuentren libres de error. Este valor se calcula de acuerdo a un determinado algoritmo y se transmite y/o almacena con los datos. Cada vez que los datos vuelven a consultarse se recalcula la suma de verificación y se compara con el valor esperable. Si ambos coinciden, no hay error. Existen varios tipos y versiones de algoritmos de verificación de datos que constituyen una práctica estándar recomendada para la detección de errores accidentales o intencionales acaecidos en ficheros de archivo.

6.3.25.2    Las versiones criptográficas son las únicas con un probado historial de éxito en la protección de datos ante daños intencionados. Sin embargo, incluso la más simple de ellas está hoy en día cuestionada. Recientemente se ha mostrado la posibilidad de crear bits sin sentido, capaces de recrear la suma de verificación generada por el algoritmo MD5. Esto significa que cualquier intruso interno o externo podría ser capaz de sustituir contenido digital valioso por datos sin sentido, sin que el sistema de chequeo contra errores pueda detectarlo: el ataque solo se constatará durante la eventual consulta del fichero corrupto. El algoritmo de reducción criptográfica MD5, aunque todavía útil a efectos de transmisión de datos, utiliza solo 128 bits y por ello no debería usarse allí donde la seguridad sea un factor capital. SHA-1 es otro algoritmo criptográfico amenazado, pues ha resultado ser vulnerable en teoría. La longitud de SHA-1 es de 160bits. SHA-2 dispone de diferentes versiones con longitudes de 224, 256, 384 y 512 bits, y resulta algorítmicamente similar a SHA-1. El constante crecimiento de la potencia computacional significa que, a largo plazo, la seguridad aportada por estos algoritmos y sus sumas de verificación también estará en riesgo.

6.3.25.3    A pesar de todos estos compromisos, la suma de verificación continúa siendo una opción válida para la detección de errores accidentales, y si se incorpora a un repositorio digital de confianza puede ser perfectamente capaz de desvelar daños intencionados sobre ficheros de datos en escenarios de bajo riesgo. Sin embargo, allí donde exista riesgo, e incluso donde no se contemple, la supervisión de las sumas de verificación y de su viabilidad debe formar parte del plan de preservación.