6.3 Emmagatzematge d’arxiu

6.3.1 Paquet d'arxiu d'informació (PAI / AIP)

6.3.1.1 La definició en OAIS del concepte d’ emmagatzematge d’arxiu inclou els serveis i funcions necessaris per a l'emmagatzematge del paquet d'arxiu de la Informació (PAI / AIP). L'emmagatzematge d’arxiu abasta la gestió de dades i inclou processos com la selecció del mitjà d'emmagatzematge, la transferència de PAI al sistema d'emmagatzematge, la seguretat i validació de dades, els processos de còpia de seguretat i restauració de dades i finalment, la reproducció de PAI sobre nous mitjans.
 
6.3.1.2 Un PAI, tal com es defineix en el model de referència OAIS (CCSDS 650.0-B-1 Reference Model for an Open Archival Information System) és un paquet d'informació que s’utilitza en tres casos: per a transmetre objectes d'arxiu cap al sistema d'arxiu digital, per a emmagatzemar objectes dins del sistema i per a transmetre objectes des del sistema. Un PAI conté tant les metadades que descriuen l'estructura i el contingut d'una essència arxivada com l'essència mateixa. Consta de múltiples fitxers de dades que conformen una entitat empaquetada de manera lògica o física. La implementació d'un PAI pot variar d'arxiu en arxiu. En qualsevol cas especificarà un contenidor (o continent) que conté tota la informació necessària per a fer possible la preservació a llarg termini i l'accés als béns arxivats. El model de metadades OAIS es basa en les especificacions de METS.

6.3.1.3 Des d'un punt de vista físic, el PAI consta de tres parts: metadades, essència i informació d'empaquetament, que conjuntament conformen un o més fitxers (vegeu 6.1.7 Definició de l'objecte digital). La informació d'empaquetament (o encapsulament) es pot entendre com un embolcall de la informació que encapsula les metadades i l'essència.

6.3.2 Conceptes bàsics de l'emmagatzematge d'arxiu

6.3.2.1 L'emmagatzematge d’arxiu aporta els mitjans per a emmagatzemar, preservar i oferir accés al contingut arxivat. En sistemes petits, l'emmagatzematge pot ser autònom i operat de manera manual, però en sistemes de més grans dimensions l'emmagatzematge s'acostuma a implementar conjuntament amb aplicacions de catalogació, sistemes de gestió de recursos, sistemes de recuperació d'informació i sistemes de control d'accés. L'objectiu resideix a controlar i gestionar el contingut arxivat, així com a proporcionar un camí controlat d'accés a aquest contingut. 

6.3.2.2 L'emmagatzematge d’arxiu ha d'estar connectat als dispositius responsables de l'ingrés i creació del recurs digital a arxivar i ha de proporcionar una interfície segura i fiable que pugui ser utilitzada per  a importar recursos cap al sistema d'emmagatzematge.

6.3.2.3 Un sistema utilitzat per a l'emmagatzematge de contingut del fitxer ha de ser fiable en diferents aspectes: ha d'estar disponible sense interrupcions significatives i ha de ser capaç de reportar al sistema o a l'usuari encarregat de la importació de contingut sobre l'èxit o fracàs de la operació, i ha de permetre d'aquesta manera a la part importadora, en cas d'èxit, l'eliminació de la còpia d'ingrés del fitxer d'arxiu. L'emmagatzematge d'arxiu també ha de ser capaç de preservar durant un llarg període de temps el contingut que gestiona i protegir-lo davant de tot tipus d'errors i desastres.

6.3.2.4 Un sistema d'emmagatzematge d’arxiu s'hauria de construir d'acord amb les necessitats del seu propietari funcional. S’ha de dimensionar adequadament per a dur a terme les tasques encomanades i gestionar la capacitat requerida en operacions quotidianes. A més a més, l'emmagatzematge d’arxiu haurà de proporcionar accés controlat al contingut que gestiona a aquells usuaris que hi tinguin permisos o drets d'accés.

6.3.3 Sistemes d'emmagatzematge digital (DMSS)

6.3.3.1 Un sistema d'emmagatzematge digital massiu1 és aquell sistema basat en les tecnologies de la informació (TIC) que ha estat dissenyat i implementat per a emmagatzemar i mantenir grans quantitats de dades per a un llarg període de temps. Aquests sistemes apareixen en diverses formes. Un DMSS bàsic podria ser un ordinador personal amb suficient espai de disc dur i algun tipus de catàleg que pugui ser emprat per a monitoritzar els recursos que el sistema posseeix. Un DMSS més complex consistirà potser en un sistema d'emmagatzematge sobre disc dur o cinta i un grup d'ordinadors que controlin aquest sistema. Un DMSS pot contenir també diversos nivells o capes d'emmagatzematge amb diferents característiques. Es pot emprar un disc dur connectat a través d'un canal ràpid de fibra per a emmagatzemar temporalment recursos el temps d'accés dels quals sigui crític, mentre s'opta per un segon nivell d'emmagatzematge basat en discs durs de menor cost i rendiment per a material amb un temps d'accés menys crític. Finalment, l'emmagatzematge basat en cinta constituirà el nivell més efectiu en relació amb el seu cost.

6.3.3.2 La gestió d’emmagatzematge jeràrquic (de l'anglès Hierarchical Storage Management, HSM) és l'opció més usual en sistemes de grans dimensions on es disposa de diferents tecnologies d'emmagatzematge que han de constituir una unitat funcional. El sistema HSM haurà de coordinar el rendiment d'aquestes diferents tecnologies d'emmagatzematge. Els sistemes a gran escala poden també trobar-se geogràficament distribuïts per a millorar el rendiment i la tolerància a errades.

 


1 De  l'anglès Digital  Mass Storage Systems,  DMSS. (n. dels t.)

6.3.4 Introducció als tipus i formats de cinta de dades

6.3.4.1 El que segueix és una noció general sobre alguns dels principals formats i sistemes d'automatització basats en cinta disponibles per a l'emmagatzematge de contingut audiovisual en format de dades. Les cintes de dades s'empren només en conjunció amb altres components d'un DSAN. Resulta prudent començar aquesta comparativa entre diversos tipus de formats de cinta de dades recordant que el suport definitiu no existeix i que, independentment d'altres consideracions, els suports resultaran viables només mentre siguin avalats pels sistemes de dades que els incorporen.

6.3.5 Rendiment de la cinta de dades

6.3.5.1 La geometria i dimensions del format determinen el seu funcionament. La velocitat de transferència de dades, un aspecte del seu rendiment, és el producte directe del nombre de pistes enregistrades i llegides de manera simultània, així com de la velocitat del capçal de dades, la densitat lineal del mitjà i la codificació de canal. Les carcasses de cinta físicament més lleugeres i de menors dimensions poden, per exemple, desplaçar-se amb més rapidesa en una biblioteca robotitzada. La densitat de dades és el producte de

6.3.5.1.1 els compromisos entre longitud i gruix de la cinta

6.3.5.1.2 l'ample de pista i la distància entre pistes

6.3.5.1.3 la densitat lineal de dades útils2 per a cada pista

 


2 En  referència a la càrrega útil de dades, de l'anglès payload,  càrrega amb rèdit (n. dels t.)

6.3.6 Classes de capa magnètica

6.3.6.1 Hi ha dos tipus principals de capes o pel·lícules magnètiques: les basades en partícules3 o les obtingudes per evaporació. Les primeres capes magnètiques per a cinta de dades utilitzaven òxids de metalls, de forma similar a les cintes de vídeo, mentre que les més recents fan servir partícules de metall (cintes MP, Metall Particle). El ferro pur, amb capes de passivació inert de ceràmica i òxid, es dispersa sobre polímers aglutinants aplicats uniformement sobre una pel·lícula fina o substrat de PET (tereftalat de polietilè) o PEN (polinaftalat d'etilè) el qual, al seu torn, aporta estabilitat dimensional i resistència a la tensió. La capa magnètica d'algunes de les cintes de més densitat disponibles avui dia es basa en un full de metall evaporat d'aliatges de cobalt o altres materials similars als dels discs durs. Amb això s'aconsegueix un molt alta puresa del material magnètic dipositat que permet capes més fines. La majoria de cintes de metall evaporat (cintes ME, Metall Evaporated) tenen una cobertura protectora d'un polímer semblant al material aglutinant que es troba en les cintes MP. Les formulacions més recents inclouen a més a més una capa protectora de ceràmica. Diverses de les primeres cintes del tipus ME han donat errors per delaminació sota un ús intensiu (Osaki, 1993,11).

 


3 També anomenades "pigments". (n. dels t.)

6.3.7 Disseny de la carcassa

6.3.7.1 S'utilitzen dos tipus bàsics de carcasses: cassets de doble eix, que permeten temps d'accés més curts, i cartutxos d'eix únic, capaços d'oferir més capacitat per a un cert volum extern.

6.3.7.2 Entre els cassets de doble eix s'inclou:

  • cinta d'amplada 3,81 mm, principalment DDS [derivat del DAT]
  • QIC [cartutx de quart de polzada, ¼ "] i Travan
  • formats de 8 mm, incloent-hi Exabyte i AIT
  • DTF
  • StorageTek 9840

6.3.7.3 Entre els cartutxos d'eix únic:

  • formats IBM MTX i Magstar com 3590, 3592 i TS1120
  • Quantum S-DLT i DLT-S4
  • LTO Ultrium [100, 200, 400 & 800 GB]
  • StorageTek 9940 i T10000
  • Sony S-AIT

6.3.7.4 No hi ha un disseny necessàriament superior a un altre per a l'emmagatzematge a llarg termini, ja que la vida útil del suport es determina per una sèrie de detalls específics a cada format. Per exemple, alguns dels cartutxos d'eix únic i mitja polzada (½") tenen guies de gran diàmetre dins de la carcassa que auguren una mínima fricció i una adequada conducció de la cinta. S'han experimentat problemes amb el mecanisme de connexió en cartutxos vells d'eix únic, encara que els dissenys més recents presenten més fiabilitat en aquest aspecte. Alguns cassets de doble eix es poden deixar aparcats a mig camí del recorregut de cinta per minimitzar així el temps de rebobinatge fins arribar a un determinat fitxer. Aquesta pràctica contradiu la tradicional aplicada en els arxius audiovisuals, basada en el bobinatge complet a baixa velocitat abans de l'emmagatzematge per aconseguir així que només la cinta inicial de guia (sovint cinta blanca) sigui exposada al mecanisme d'enfilament. Generalment les cintes no incorporen un carcassa hermèticament segellada en la manera com es protegeixen els discs durs.

6.3.8 Escaneig lineal i helicoïdal de cinta

6.3.8.1 Les cintes de dades poden ser enregistrades (escrites) o reproduïdes (llegides) mitjançant un capçal simple, generalment descrit com a lineal, o bé mitjançant un capçal rotatori o helicoïdal. Les cintes lineals acostumen a disposar d'un traçat de pistes en forma de serpentina. S'argumenta que el moviment en el transport de la cinta pot comportar un desgast, l'anomenat "efecte d'enllustrament4". A la pràctica, les cintes modernes es dissenyen per a suportar un alt nombre de passades sense acusar desgast. Tanmateix, segueix essent aconsellable accedir a continguts d'ús freqüent des d'un disc dur. Les cinta en general, sotmesa a descomposició química deguda a la hidròlisi i altres causes, tindrà un millor comportament sobre guies i altres parts fixes del transport a velocitats al voltant de 1-2 m/s o potser més altes, les típiques per a formats amb capçal fix o lineal. Per a formats amb capçals rotatoris o helicoïdals ens trobarem amb altes velocitats relatives entre cinta i capçal. Aquestes altes velocitats relatives augmenten l'efecte de coixí o bombolla d'aire entre la superfície de la cinta i els capçals de lectura/escriptura, per més que la velocitat lineal de la cinta sobre les parts fixes de guies i capçals sigui molt menor. D'aquí ve l'habitual confusió en aquest aspecte.

 


4 De  l'anglès shoe-shine effect. (n. dels t.)

6.3.9 Dispositius d'accés i elements d'emmagatzematge auxiliars

6.3.9.1 Formats com l’AIT inclouen memòries MIC d'estat sòlid integrades en el cartutx (Memory in cassette), capaços d'emmagatzemar informació posicional del fitxer de forma similar a la taula de continguts (Table of Contents, TOC) d'un disc compacte (CD) per a agilitar la localització de les dades. El format DTF fa servir memòria RF5.

 


5 Digital Radio Frequency Memory, DRFM. (n. dels t.)

6.3.10 Obsolescència de formats i cicles tecnològics

6.3.10.1 La naturalesa mateixa de l'emmagatzematge de dades comporta un progrés i un desenvolupament constants, la qual cosa implica canvis inevitables i una contínua obsolescència. La gestió realista del contingut a llarg termini ha d'assumir els fets i construir sobre la contínua evolució i actualització del maquinari i els mitjans fungibles. Encara que la infraestructura central com el cablejat de dades o les llibreries d'emmagatzematge pugui continuar en servei durant deu o fins a vint anys, les unitats individuals de lectura/escriptura i les cintes tenen una vida finita i molt menor. Tots els principals formats de cintes de dades disposen de plans de desenvolupament i projecten actualitzacions en períodes que van dels divuit mesos als dos anys. La retrocompatibilitat per a l'accés exclusiu de lectura es garanteix de vegades sobre una o dues generacions en qualsevol família comuna de dispositius. Com a resultat, cada generació de dispositius de cinta i els seus mitjans fungibles poden tenir viabilitat entre quatre i sis anys, després dels quals resulta essencial la migració de les dades a un nou format6. També el cost de manteniment del maquinari propi dels sistemes d'emmagatzematge massiu tendeix a incrementar-se notablement quan supera el temps de vida útil o el període de garantia. Aleshores pot resultar difícil l'obtenció de peces noves de recanvi per a les biblioteques o les unitats de cinta, per exemple. En la taula següent s'inclou un resum dels plans de desenvolupament de diferents fabricants. Molts formats disposen de compatibilitat exclusivament de lectura amb almenys una generació prèvia.

Família 1a generació 2a generació 3a generació 4a generació 5a generació 6a generació
Quantum SDLT SDLT220 110 GB SDLT320 160 GB SDLT600 300 GB DLT-S4 800 GBytes    
IBM     3592 2004 300GB 40MB/s TS1120 2006 700GB 104MB/s    
Sun - Storagetek   9940B 2002 200GB 30MB/s T10000 2006 500GB 120MB/s T10000B-2008 ITB 120MB/s    
LTO LTO-1 2001 100GB 20MB/s LTO-2 2003 200GB 40MB/s LTO-3 2004 400GB 80MB/s LTO-4 2007 800GB 120MB/s LTO-5 sense data (2009+) 1.6TB 180MB/s (estimat)7 LTO-6 sense data (2011+) 3.2TB 270MB/s (estimat)
Sony S-AIT S-AIT 2003 500 GB 30MB/s S-AIT2 2006 800 GB 45MB/s        
Sony AIT     AIT-3 2003 100 GB 12MB/s AIT-4 2005 200 GB 24MB/s    

Taula 1 Secció 6.3: Pla de desenvolupament projectat per a cintes de dades

 


6 Això  comporta un certa generació de residus i impacte mediambiental que  va més enllà de l'àmbit de la discussió purament tecnològica,  encara que en realitat una biblioteca de cintes velles de dades  consumeixi a gran escala més polímers i derivats petroquímics per  producte que un sistema actual d'alta densitat, dotat de solucions  d'emmagatzematge robotitzades energèticament més eficients que  ocuparan, alhora, un menor espai físic. (n. de l'autor).

7 Aparegudes al gener de 2010, les cintes LTO-5 disposen d'una  capacitat de 1,5 TB i velocitat de transferència de 140 MB/s. (n. dels t.)

6.3.11 Robots automàtics o recuperació de dades manual

6.3.11.1 Per a operacions a petita escala és possible realitzar una còpia de seguretat de dades des d'una unitat de treball (ordinador) cap a un unitat de cinta, carregant manualment els cartutxos de cinta per a l'emmagatzematge final en una prestatgeria tradicional. Fins i tot els sistemes en xarxa a petita escala podran dur a terme una còpia de seguretat manual del seu emmagatzematge (vegeu també el capítol 7 Propostes per a sistemes d'emmagatzematge digital a petita escala). Les mateixes pautes generals per a entorns d'emmagatzematge són aplicables a tot tipus de cintes magnètiques, encara que s'hagi de fer especial atenció a minimitzar la presència de pols i altres substàncies contaminants. Per a operacions a gran escala, i en particular on els costos laborals siguin alts i hi hagi pressupost per a l'equipament adequat, serà desitjable disposar d'un cert grau d'automatització en favor de sistemes més econòmics que els purament manuals. El grau d'automatització dependrà de l'escala i la consistència de la tasca, el tipus d'accés al contingut i els costos relatius dels principals recursos.

6.3.11.2 Carregadors automàtics i llibreries robotitzades de cinta. El següent pas després de les unitats de cinta autònomes és el carregador automàtic o autocarregador a petita escala, dotat d'una unitat de lectura/escriptura de cinta —ocasionalment, dues— i d'una fila o un tren de cintes de dades disposades seqüencialment per alimentar la unitat i permetre d'aquesta manera operacions de còpia de seguretat. Una de les principals diferències entre els autocarregadors i les biblioteques robotitzades a gran escala és que, en el primer cas, les cintes enregistrades no es troben recollides pel programari de còpia de seguretat en una base de dades centralitzada que pugui permetre la recuperació automatitzada. Les tasques de recerca, recuperació i recàrrega de fitxers individuals continuen així en mans d'un operador humà. Tot el que els autocarregadors permeten és, tal com el seu nom indica, la lectura o l’escriptura seqüencial automatitzada amb la finalitat de superar les limitacions de capacitat que cada cinta individual imposa. S'elimina així del procés l'operador humà responsable de canviar de cinta durant una seqüència de còpia de seguretat.

6.3.11.3 Com a contrast, fins a la més petita de les llibreries robotitzades de cinta està programada per a comportar-se com un sistema d'emmagatzematge únic i autocontingut. La ubicació de fitxers individuals en diferents cintes és transparent per a l'usuari. El sistema de control de la llibreria monitoritza les direccions dels fitxers per a cada cinta, així com la posició física de les cintes a la llibreria. Davant de qualsevol recàrrega de dades o reubicació d'una cinta, el subsistema robotitzat reescanejarà els compartiments de cintes durant la inicialització per actualitzar el seu inventari amb metadades provinents de codis de barres, etiquetes de radiofreqüència (rf tags) o xips de memòria a les carcasses de les mateixes cintes.

6.3.11.4 Les llibreries de cintes de majors dimensions presenten avantatges sobre les de menor grandària. Poden ser construïdes amb redundància i trobar-se distribuïdes, de manera que es minimitza el temps d'inactivitat i la càrrega de processos d'escriptura/lectura es balanceja entre diversos sistemes similars. També es poden usar llibreries de grans dimensions com a sistema amb multipropòsit: poden, per exemple, mantenir les còpies de seguretat de negoci d'una empresa tot gestionant, al mateix temps, el contingut audiovisual en arxiu.

6.3.11.5 Caldrà que els cassets o cartutxos de cinta de dades utilitzats en un sistema robotitzat disposin d'algun tipus d'identificació (codi de barres, etiquetes de radiofreqüència, etc.). Aquests sistemes òptics o electromagnètics de reconeixement operen de vegades conjuntament amb memòries MIC (Memory in Cassette) per a completar la informació sobre la identificació (ID) i contingut de la cinta. Alguns formats disposen d'un sistema global d'identificació que assigna codis de barres a cada casset o cartutx, de manera que tota cinta utilitzada en una llibreria robotitzada pugui ser reconeguda en un altre sistema de llibreria.

6.3.11.6 Programaris de còpia de seguretat i migració. Programació. Hi ha certa confusió tant en cercles de tecnologies de la informació i la comunicació (TIC) com en comunitats més àmplies pel que fa al propòsit i operació dels arxius de dades a llarg termini. Dos malentesos molt populars són els següents. En primer lloc, el que afirma que arxivar és el procés de desplaçar material d'ús poc freqüent des de dispositius d'emmagatzematge sobre disc connectats en xarxa, d'alt cost, cap a altres dispositius més assequibles, fora de línia, en llibreries inaccessibles des d'on potser ja no podrà recuperar-se. En segon lloc, el que assegura que el procés de còpia de seguretat és la rutina periòdicament programada —diàriament o setmanalment— de còpia completa de tot el que hi ha emmagatzemat en el sistema.

6.3.11.7 Amb relació al primer malentès, la realitat indica que alguns dels materials més importants i valuosos probablement no es faran servir durant mesos o anys, però la seva supervivència ha de continuar inequívocament garantida. Anàlogament, respecte al segon malentès, si s'estableixen les regles adequades, grans quantitats de material poden no necessitar una replicació diària o setmanal quan només s'actualitzen petits percentatges. A la pràctica, tot i que l'establiment d'un règim estricte de replicació de dades en diferents mitjans i ubicacions resulta essencial per a minimitzar el risc d'errors tecnològics i garantir la recuperació davant de desastres, les característiques particulars del patrimoni digital requereixen certs procediments que difereixen de la gestió de dades estandarditzada per les tecnologies de la informació.

6.3.11.8 Encara que els sistemes convencionals d'administració jeràrquica de l'emmagatzematge (Hierarchical Storage Management, HSM) es puguin optimitzar per a fer còpies de seguretat periòdiques i desplaçar continguts de baixa demanda a ubicacions menys accessibles, altres sistemes amb més bones prestacions podran adequar-se millor a les regles de negoci d'arxius amb diferents mides i nivells d'accés. Una organització de mida mitjana pot arribar a ingerir cap a 100 GB de dades d'àudio cada setmana, o bé 1 TB de vídeo. És raonablement senzill garantir la còpia dels materials tan aviat com s'ingereixen en el sistema, així com mantenir l'accés als més consultats.

6.3.11.9 Alguna de les tasques primordials del programari de gestió de l'emmagatzematge són l'optimització de l'ús dels recursos informàtics i la gestió dels dispositius a la capa de maquinari, així com la regulació del trànsit de dades amb la menor latència possible per a l'usuari. El programari HSM ofereix una sèrie d'opcions per a la migració de fitxers des del disc dur en xarxa cap a cinta, opcions que poden ser de base temporal (anterior a una certa data), dimensional (més gran que una certa mida), posicional (ubicats en carpetes determinades) o relacionades amb determinats límits superiors o inferiors d'ocupació de disc dur.
 
6.3.11.10 Típicament, en casos en què es generen tants fitxers d'alta resolució com còpies d'accés a baixa resolució, acostumen a ser els primers els destinats a la preservació i els desplaçats cap a cinta per a alliberar espai de disc dur, que és més car. Es requereix un compromís entre la disponibilitat del material i l'optimització de l'ús de les unitats de cinta i fungibles. Si l'accés a les cintes és molt freqüent, les repetides operacions de càrrega i descàrrega, rebobinatge i reproducció degradaran el rendiment del sistema. Hi ha sistemes més sofisticats de gestió del contingut que sovint incorporen nivells més baixos de gestió d'emmagatzematge, de manera que els usuaris són menys conscients dels fitxers i components que contenen el sistema.

6.3.12 Selecció i monitoratge del mitjà de cinta de dades

6.3.12.1 Com en qualsevol sistema convencional de preservació, és important no només establir còpies de seguretat i redundància en cas d'errors en els fungibles o components, sinó també establir i mesurar estàndards de rendiment per a les parts vitals del sistema. Programaris com SCSI-Tools permeten un nivell detallat de revisió de les unitats de cinta i altres dispositius en xarxa amb la finalitat de determinar si els fungibles i el maquinari treballen al nivell òptim de funcionament. Les cintes LTO disposen d'una interfície per a la monitoratge de dades, una funcionalitat que rarament s'utilitza tot i les seves bondats per a sistemes d'arxiu. Alguns sistemes HSM poden controlar de manera regular la qualitat dels actius emmagatzemats. Aquests sistemes monitoritzen la taxa d'error de les cintes al mateix temps que els usuaris accedeixen als seus actius, o bé llegeixen automàticament aquests actius, sense intervenció humana, quan la cinta no ha estat utilitzada durant un cert període de temps.

6.3.13 Costos

6.3.13.1 El cost de l'emmagatzematge de dades en cinta es reparteix típicament en quatre àrees
• fungibles de cinta: disponibilitat i recanvi del mitjà cinta principal i de còpia de seguretat cada 3-5 anys
• unitats de cinta: disponibilitat i recanvi cada 1-5 anys, amb servei d'assistència tècnica o garantia
• llibreria robotitzada: adquisició i manteniment amb cicle de vida d'uns 10 anys
• programari: adquisició, desenvolupament, integració i manteniment

6.3.13.2 En un sistema manual els costos d'emmagatzematge en prestatgeria resulten menors, encara que l'espai requerit per a la plantilla de treballadors és major, com ho és el cost de recuperació i revisió manual de les dades. En un sistema automàtic robotitzat, gran part dels costos per intervenció humana queden compensats per la despesa inicial en maquinari i programari. Les llibreries robotitzades de cintes a gran escala poden ser adquirides de forma modular per a distribuir així el cost entre diversos anys, en paral·lel amb la demanda de creixement. Durant la vida útil d'una llibreria robotitzada, components individuals com ara les unitats de cinta hauran de ser substituïts per nova tecnologia cada tres o cinc anys. Si l'accés al contingut d'un arxiu és continuat, la vida útil de les unitats de cinta pot escurçar-se considerablement, fins a arribar a ser d'un any o potser menys. Els fungibles i unitats velles poden arribar a servir con a sistema de redundància si esdevé necessari. Si el creixement d'un arxiu no és molt ràpid, podrà donar-se la coexistència de dues generacions de cintes i unitats —la present i l'anterior— mentre duri la migració del contingut del fons de l'arxiu cap a la nova generació tecnològica. Si l'arxiu creix a un ritme continuat, pot resultar econòmicament efectiu dimensionar la llibreria per emmagatzemar només la quantitat de contingut que serà dipositada durant el temps de vida útil d'aquesta tecnologia, per adquirir posteriorment una nova llibreria més gran capaç d'acollir tant el nou contingut com el vell provinent de la necessària migració a la nova tecnologia. Aquesta última opció serà també necessària si les tecnologies vella i nova no poden coexistir en la mateixa unitat.

6.3.13.3 És una bona pràctica empresarial mantenir almenys una còpia redundant de dades externalitzada o geogràficament distant. Un radi de 20 a 50 km és típicament suficient per a protegir-se de desastres naturals o ocasionats per la mà de l'home i, alhora, permetre la recuperació manual de les dades en qüestió d'hores. Per a reduir encara més el risc, caldria guardar còpies redundants en diferents lots o tipus de mitjans, o fins i tot en diferents tecnologies. Algunes cintes de dades són producte d'un sol fabricant, de manera que el risc d'un error puntual reiterat s'incrementa. Tres còpies de dades són més segures que dues, i encara que els costos de fungible s'incrementin, els de programari i maquinari creixen només lleugerament amb relació als propis de la primera còpia.

6.3.14 Introducció als discs durs

6.3.14.1 Els discs durs han servit com a principal memòria i magatzem de dades dels ordinadors des que IBM introduí el seu disc dur model 3340 l'any 1973. Dotat de 30 MB de memòria fixa més 30 MB extraïbles i designat amb el nom operatiu de 30/30 —raó per la qual fou anomenat "Winchester", en honor al famós rifle— el disseny pioner dels seus capçals va fer viable l'operativitat dels discs durs. La subsegüents reduccions en grandària i els més recents desenvolupaments en el disseny de capçals i discs han incrementat enormement la fiabilitat d'aquests dispositius, fins als robustos dissenys actuals d'ús quotidià.

6.3.14.2 Els gestors del fitxer responsables del manteniment de dades han considerat tradicionalment el disc dur com a massa poc fiable per a allotjar una còpia única d'un document, al mateix temps que massa car com a base de múltiples còpies, en el que constituiria una matriu o conjunt de discs. Conseqüentment, les dades d'un disc dur han estat duplicades en múltiples còpies sobre cinta per a garantir la seva supervivència. Com ja ha estat esmentat (6.1.4, «Aspectes pràctics de les estratègies de protecció de dades»; 7.6, «Emmagatzematge d'arxiu»), cal que tots els sistemes de dades disposin de còpies múltiples i separades de totes les dades. Encara que els experts tendeixin a coincidir en l'opció d'un array o conjunt de discs durs secundat per múltiples duplicats sobre cinta com el sistema de dades més segur, la contínua reducció de costos i la millora en la fiabilitat converteixen l'opció de duplicació idèntica de dades sobre discs durs separats en una possibilitat factible. Persisteix, no obstant això, el principi desitjable de múltiples mitjans o suports fungibles, de manera que l'emmagatzematge exclusiu sobre disc dur és encara un risc.

6.3.15 Fiabilitat

6.3.15.1 La pèrdua de dades com a conseqüència d'errors en el disc o trencaments del capçal ha aixecat suspicàcies sobre el disc dur entre els professionals, encara que els fabricants puguin anunciar avui dia taxes anuals d'error de menys de l’1% i una vida operativa de 40.000 hores (Plend, 2003). Hi ha unitats d'alta fiabilitat amb una vida operativa encara més dilatada, denominada pels fabricants com a "temps mitjà entre errors"8. Encara que els discs durs són autònoms i segellats i, per tant, protegits contra danys, molts errors en les unitats de disc dur ocorren per dos motius oposats: com a resultat del desgast per ús continuat, o com a conseqüència de l'apagada i posada en marxa de la font de alimentació. El dilema rau a decidir si deixar el disc dur en marxa, i incrementar així el desgast, o apagar-lo i encendre'l i incrementar així el risc d'error.

 


8 De  l'anglès Mean Time Between Failure, MTBF. (n. dels t.)

6.3.16 Descripció, complexitat i cost del sistema

6.3.16.1 Com es va comentar a la secció 2, «Principis digitals bàsics», les generacions més recents d'ordinadors disposen de prou capacitat per a manipular grans fitxers d'àudio. Tots els ordinadors actuals incorporen discs durs de velocitat i grandària adequades als quals es pot afegir un disc dur extern a través d'un port USB, Firewire o SCSI. La complexitat associada i el grau de perícia requerits per a usar aquests sistemes no és gaire superior a la que comporta qualsevol ordinador de sobretaula.

6.3.16.2 Quan s'emmagatzemen en discs durs grans quantitats de material audiovisual per al qual s'ha de facilitar accés, s'acostuma a agrupar els discs en una estructura de RAID (de l'anglès Redundant Array of Independent Disks) o conjunt redundant de discs independents. L'agrupació en RAID incrementa la fiabilitat del sistema de discs durs i la velocitat d'accés resultant mitjançant la consideració del conjunt de discs com un gran disc dur únic. Si qualsevol dels discs individuals que constitueix el RAID fallés, podria ser reemplaçat de tal manera que totes les dades que emmagatzemi es reconstrueixin amb dades redundants provinents dels altres discs de l'array. L'índex d'error que el sistema serà capaç de tolerar i la velocitat de recuperació seran producte dels nivells del RAID. El RAID no es dissenya com una eina de preservació de dades sinó com una manera de mantenir l'accés a través dels inevitables errors de disc. El nivell apropiat de RAID per a un cas en concret, així com el requisit de duplicació dels controladors del RAID, dependrà de les circumstàncies particulars i la freqüència necessària en la duplicació de dades. L'agrupació en RAID requereix que tots els discs del conjunt estiguin en funcionament quan qualsevol part d'ells estigui en ús. Tots els RAID que continguin material d'arxiu, com en qualsevol tipus de dades digitals, han de ser duplicats més d'una vegada sobre altres suports.

Capacitat Capacitat nativa de la cinta (GB) Nombre de cintes Nombre recomanat d'unitats lectores de cinta Nombre màxim d'unitats Preu del sistema (€) Preu per unitat de cinta (€) Preu per unitat lectora (€) Cost per GB (€)
10 TB 800 13 2 4 20.480 97 7.625 2,05
50 TB 800 63 4 16 56.800 97 10.175 1,14
100 TB 800 125 8 16 134.050 97 12.725 1,34
200 TB 800 250 12 16 205.350 97 12.725 1,03
500 TB 800 625 18 56 446.938 97 15.975 0,89
1000 TB 800 1250 36 88 864.517 97 15.975 0,86
2000 TB 800 2500 72 176 1.687.690 97 15.975 0,84

Taula 2 Secció 6.3: Costos d'inversió associats a sistemes d'emmagatzematge basats en tecnologia LTO-4

 

 

Capacitat Manteniment Maquinari 1 any (€) Manteniment Programari 1 any (€) Manteniment Maquinari 2 anys (€) Manteniment Programari 2 anys (€) Manteniment Maquinari 3 anys (€) Manteniment Programari 3 anys (€) Manteniment Maquinari 4 anys (€) Manteniment Programari 4 anys (€) Manteniment Maquinari 5 anys (€) Manteniment Programari 5 anys (€)
10 TB 2.420 n/a 2.420 n/a 2.420 n/a 2.514 n/a 2.514 n/a
50 TB 3.454 n/a 4.958 n/a 4.958 n/a 4.958 n/a 4.958 n/a
100 TB 11.808 490 13.817 490 13.817 490 13.817 490 13.817 490
200 TB 15.787 582 19.323 582 19.323 582 19.323 582 19.323 582
500 TB 27.380 1.068 34.111 1.068 34.111 1.068 34.111 1.068 34.111 1.068
1000 TB 47.542 2.115 66.734 2.115 66.734 2.115 66.734 2.115 66.734 2.115
2000 TB 99.272 4.221 99.272 4.221 99.272 4.221 99.272 4.221 99.272 4.221

Taula 3 Secció 6.3: Costos de manteniment anual de sistemes d'emmagatzematge basats en tecnologia LTO-4

 

Notes sobre les taules:

  • Els preus donats són mitjanes calculades a partir del catàleg de preus de múltiples proveïdors. El preu final que el client haurà d'abonar resultarà en general una mica menor.
  • Els  preus es refereixen a la capacitat neta d'emmagatzematge. Cal considerar com a mínim el doble d'aquesta capacitat per a l'emmagatzematge de còpies de seguretat.
  • El preu del sistema inclou el cost de les cintes i unitats de la capacitat adequada, però no inclou cap programari o maquinari HSM.
  • Les taules indiquen només els costos d'inversió i tarifes de manteniment que hagin de ser abonats al proveïdor. Caldrà incloure a part en els càlculs individuals els costos propis d'electricitat, refrigeració, sala de màquines, gestió, etc. L'electricitat i la refrigeració d'un sistema de biblioteca de cintes pot costar cap al 10 % del total del  seu preu de compra durant un període de cinc anys.

 

Capacitat Tecnologia de disc dur Mida del disc dur (GB) Nombre de discs durs Preu del sistema (€) Preu del disc (€) Cost per GB (€)
5 TB SATA 500–1000 5–10 11.884 1.000 2,38
10 TB SATA 750–1000 10–14 19.997 1.000 2,00
50 TB SATA/FATA 1000 50 124.334 1.800 2,49
100 TB SATA/FATA 1000 100 230.914 1.800 2,31
200 TB SATA/FATA 1000 200 456.942 1.800 2,28
500 TB SATA/FATA 1000 500 1.202.726 1.900 2,41
1000 TB SATA/FATA 1000 1000 2.566.513 1.900 2,57
2000 TB SATA/FATA 1000 2000 4.782.584 1.900 2,39

Taula 4, Secció 6.3: Costos de sistemes d’emmagatzematge basats en disc dur (HDD)

 

 

Capacitat Manteniment Maquinari 1 any (€) Manteniment Programari 1 any (€) Manteniment Maquinari 2 anys (€) Manteniment Programari 2 anys (€) Manteniment Maquinari 3 anys (€) Manteniment Programari 3 anys (€) Manteniment Maquinari 4 anys (€) Manteniment Programari 4 anys (€) Manteniment Maquinari 5 anys (€) Manteniment Programari 5 anys (€)
5 TB 826 750 826 750 826 750 1.845 750 1.845 750
10 TB 1.206 1.125 1.206 1.125 1.206 1.125 2.600 1.125 2.600 1.125
50 TB 5.822 6.125 5.822 6.125 5.822 6.125 12.365 6.125 12.365 6.125
100 TB 10.514 8.500 10.514 8.500 10.514 8.500 22.391 8.500 22.391 8.500
200 TB 21.724 12.750 21.724 12.750 21.724 12.750 44.956 12.750 44.956 12.750
500 TB 57.061 37.250 57.061 37.250 130.394 37.250 130.394 37.250 130.394 37.250
1000 TB 130.203 66.250 130.203 66.250 263.537 66.250 263.537 66.250 263.537 66.250
2000 TB 223.778 124.250 223.778 124.250 477.121 124.250 477.121 124.250 477.121 124.250

Taula 5 Secció 6.3 Costos de manteniment anual de sistemes d'emmagatzematge basats en disc dur

Notes sobre les taules:

  • Els  preus donats són mitjanes calculades a partir del catàleg de preus  de múltiples proveïdors. El preu final que el client haurà  d'abonar resultarà en general una mica menor.
  • El  preu del sistema inclou el cost de discs durs de la capacitat  adequada segons es requereixi.
  • Les  taules indiquen únicament els costos d'inversió i tarifes de manteniment que hagin de ser abonades al proveïdor. A part s'han  d'incloure en els càlculs individuals els costos propis d'electricitat, refrigeració, sala de màquines, gestió, etc. L'electricitat i la refrigeració d'un sistema de discs durs pot  costar cap al 30-40 % del total del seu preu de compra durant un període de cinc anys.

6.3.17 Emmagatzematge únic sobre disc dur

6.3.17.1 Els RAID es poden escalar (fer créixer modularment) dins dels límits del sistema. No obstant això, els discs durs es poden escalar de manera indefinida simplement mitjançant l’addició de més unitats. Des de la introducció de l'IBM 3340 la capacitat d'emmagatzematge dels discs durs s'ha incrementat ràpidament, de forma gairebé exponencial, mentre es reduïen els costos. Aquests canvis, units a l'increment de la fiabilitat, han conduït a suggerir la possibilitat d'usar discs durs tant per a l'emmagatzematge principal com per al secundari (còpia de seguretat). Poden citar-se tres dificultats associades a aquesta proposta. En primer lloc, la vida útil d'un disc dur s’aproxima en termes de temps d'ús, és a dir, nombre d'hores operatives. No existeix un test sobre l’esperança de vida d'un disc dur rarament emprat. En segon lloc, la bona pràctica de distribuir les dades entre diferents mitjans distribueix també el risc d'errors: la proposta, doncs, ha de ser considerada amb molta cautela d’acord amb aquesta experiència. En tercer i últim lloc, no hi ha manera de monitoritzar l'estat d'un disc dur en la seva prestatgeria sense posar-lo abans en marxa (encendre la seva font d'alimentació) a intervals regulars, comprometent així els avantatges de mantenir el disc apagat (vegeu la secció que segueix, 6.3.20, Monitoratge de discs durs). Els suports múltiples (combinant, per exemple, cinta i disc dur) continuen essent l'opció preferida. Convé implementar l’emmagatzematge en discs durs dins d'un sistema integrat.

6.3.18 Sistemes d'emmagatzematge en disc dur

6.3.18.1 Els sistemes d'emmagatzematge sobre disc dur són sistemes centralitzats desenvolupats per a maximitzar l'ús de l'emmagatzematge en disc i proporcionar gran capacitat i/o rendiment. Aquests sistemes s'utilitzen en conjunció amb ordinadors servidor, de manera que un servidor disposa només d'una petita quantitat d'emmagatzematge intern sobre disc dur o, de vegades, cap en absolut. Aquests tipus de sistemes s’empren sovint com a solució d'emmagatzematge per a entorns de mitjana i gran dimensió. Com a alternativa, un arxiu digital pot compartir un sistema d'emmagatzematge centralitzat amb un cert nombre de sistemes d'ordinadors. La grandària d'un sistema pot variar des d’un terabyte a diversos petabytes. Convé recordar que el rendiment d'un sistema d'emmagatzematge pot variar notablement en funció de la configuració escollida. Per això resulta essencial anticipar una planificació acurada en funció de les necessitats reals i confiar a professionals la configuració de l'estructura d'emmagatzematge i interfícies del sistema, amb la finalitat d'obtenir el millor retorn d'inversió.

6.3.18.2 Els sistemes centralitzats d'emmagatzematge en disc es dissenyen per a proporcionar, en contrast amb els discs durs independents, una millor capacitat de recuperació davant d'errors. Aquests sistemes permeten diferents nivells alternatius de protecció en RAID, els seus components poden ser redundants a fi d'evitar errors localitzats i poden finalment  ser distribuïts localment o geogràficament per a protegir actius valuosos davant tot tipus d'errors i desastres.

6.3.18.3 El tipus de connexió entre el sistema d'emmagatzematge i els ordinadors que el sistema serveix té un paper important en el rendiment del conjunt. Hi ha en termes generals dues opcions principals, conegudes pels seus acrònims en anglès: NAS (Network Attached Storage o emmagatzematge connectat a xarxa) i SAN (Storage Area Network o xarxa d'àrea d'emmagatzematge). Mentre que l'opció NAS utilitza una xarxa de dades estàndard com Ethernet per a desplaçar dades entre els ordinadors i el sistema d'emmagatzematge, la tecnologia SAN utilitza canals commutats de fibra. Els sistemes NAS poden operar a velocitats de 100 Mbps9, 1 Gbps i 10 Gbps, mentre que els SAN treballen a 2 Gbps o 4 Gbps. Ambdues tecnologies disposen d'una clara política de desenvolupament i s'espera que el seu rendiment creixi en el futur. El disseny específic de la tecnologia SAN afavoreix el seu rendiment, factor especialment valorat en entorns més exigents. Per exemple, la mida del bloc d'entrada/sortida (I/O) pot controlar-se de manera més efectiva en un entorn SAN, mentre que els protocols de xarxa tendeixen a forçar els sistemes NAS a utilitzar mides de bloc I/O força menors. Des d'un punt de vista econòmic, la tecnologia NAS és més assequible que la SAN.

 


9 Mbps equival a megabits por segon / Gbps a gigabits per segon. (n. dels t.)

6.3.19 Vida útil d'un disc dur

6.3.19.1 Com s'ha indicat més amunt, la vida operativa de molts dels discs durs comercialment disponibles s'estima en unes 40.000 hores. Un ús típic d'aquests dispositius tradueix aquest temps en uns 5 anys de vida útil abans de ser reemplaçats. Algunes millores recentment aplicades als discs durs de sobretaula com els rodaments fluids o ceràmics, la lubricació superficial de la capa magnètica dels discs i les tècniques especials d'estacionament dels capçals poden allargar lleugerament les expectatives de vida. No obstant això, no existeix cap test fiable que aporti dades sobre la vida útil de discs durs poc o gairebé mai utilitzats, per la qual cosa és una opció encertada planejar el recanvi dels discs durs d'un sistema cada 5 anys.

6.3.20 Monitoratge de discs durs

6.3.20.1 Un indicador de la imminent fallida d’un disc pot ser l'increment de blocs de dades errònies. Resulta típic en els discs durs més recents mostrar errors de bloc tot i ser discs acabats d'estrenar, i molts sistemes de dades gestionen aquests blocs defectuosos simplement reassignant l'adreça del bloc en qüestió. No obstant això, si la quantitat de blocs erronis s'incrementa, això podria indicar que el disc dur està començant a fallar. Hi ha programes informàtics que proporcionen avisos sobre l'increment dels blocs de dades errònies, així com altres avisos sobre les condicions físiques del disc que puguin indicar potencials problemes.

6.3.21 Tecnologies de disc dur

6.3.21.1 Hi ha quatre mètodes principals per a connectar discs durs i altres dispositius perifèrics als ordinadors: USB (Universal Serial Bus), IEEE 1394 (Firewire), SCSI (Small Computer System Interface) i SATA/ATA (Serial Advanced Technology Attachment / AT Attachment). Cadascun d'ells té els seus particulars avantatges segons la situació. USB i Firewire són ports de connexió multipropòsit, aptes per a connectar l'ordinador tant a un disc dur com a una càmera de vídeo digital o un reproductor MP3. Les opcions SCSI i SATA/ ATA s'usen principalment per a connectar discs durs a ordinadors o sistemes d'emmagatzematge en disc.

6.3.21.2 Tant la interfície SCSI com la seva successora SAS (Serial Attached SCSI) permeten cicles de lectura i escriptura a alta velocitat i faciliten l'accés a un major nombre de discs que els permesos mitjançant SATA/ATA. Els discs SCSI poden acceptar múltiples ordres al mateix temps a través del bus SCSI i no generen cues de peticions com en SATA/ATA. Les unitats SATA/ATA resulten comparativament més barates. La velocitat d'accés en lectura és bàsicament la mateixa per a ambdues interfícies i en el context de l'àudio digital cap de les dues limitarà les operacions d'una estació de treball d'àudio digital (també coneguda pel seu acrònim anglès DAW, Digital Audio Workstation). Pel que fa  al rendiment, la diferència entre els controladors i discs SCSI/SAS i SATA es pot notar en el marc d'un sistema central d'emmagatzematge d'ús intensiu.

6.3.21.3 Els discs SCSI/SAS amb canal de fibra (tecnologia Fibre Channel, FC) s'utilitzen principalment en entorns empresarials d'alta exigència, mentre que els discs SATA abunden en el mercat domèstic, encara que creix el seu ús en sistemes empresarials que busquen una capacitat d’emmagatzematge més rendible, per exemple, en l'emmagatzematge d'arxiu. Precisament en aquesta situació la decisió final entre les tecnologies (FC) SCSI/SAS i SATA depèn de la càrrega efectiva del sistema. Si aquest s'usa per a arxivar petites o mitjanes quantitats de contingut que no requereixen accés intensiu, un solució basada en SATA pot ser suficient. La presa de decisió s'ha de basar en la detallada descripció dels requisits i en una bona negociació amb el proveïdor d'emmagatzematge.

6.3.21.4 Els discs durs connectats via USB o Firewire poden servir per a transferir continguts d'un entorn a un altre. No obstant això, atesa la seva poca fiabilitat, difícil monitoratge i fàcil pèrdua, no haurien de ser considerats vàlids per a tasques d’arxiu tot i que el seu preu sigui molt atractiu.

6.3.21.5 La interfície per si mateixa no és una indicació prou consistent sobre la fiabilitat i rendiment d'un disc dur o un sistema d'emmagatzematge dades. El comprador/usuari s’hauria de preocupar també per altres paràmetres operatius i de configuració del sistema. Sembla que s’associï la fiabilitat amb la interfície FC SCSI/SAS. Tanmateix, els discs durs no són per si mateixos permanentment fiables, de manera que totes les dades d'àudio haurien de disposar de còpies de seguretat en un format de cinta adequat (vegeu 6.3.5, «Rendiment de la cinta de dades»). (Per més detall, vegeu Anderson, Dykes i Riedel, 2003).

6.3.21.6 Hi ha una tecnologia d'emmagatzematge emergent que podria gaudir d'una posició preeminent en un futur pròxim. L'emmagatzematge sobre estat sòlid en la forma de memòries flash es desenvolupa com a alternativa als discs rotatoris i ja s'ha convertit en una alternativa als discs durs en ordinadors de sobretaula. Alguns fabricants de sistemes d'emmagatzematge han introduït també discs d'estat sòlid (discs flash) en els seus sistemes de cost mitjà o baix i planegen també introduir-los en els seus sistemes d'alt nivell. Encara que l'emmagatzematge sobre estat sòlid planteja encara certs reptes pel que fa a fiabilitat d'emmagatzematge, es pot convertir en una solució viable per a les necessitats d'emmagatzematge de la comunitat arxivística. El preu per gigabyte comença a ser competitiu, és més respectuós amb el medi ambient atesa la seva menor demanda de potència i prescindeix de part mòbils (motors), cosa que podria significar un major temps de vida per a les unitats d'emmagatzematge. Una vida útil de deu anys en lloc dels habituals cinc per unitat d'emmagatzematge podria significar una menor inversió i costos de gestió, i permetria l'estalvi d'un de cada dos processos periòdics de migració. En termes de rendiment de lectura/escriptura, l'emmagatzematge sobre estat sòlid ja és comparable al de la tecnologia de disc dur.

6.3.22 Gestió d'emmagatzematge jeràrquic (HSM)

6.3.22.1 Les funcions d’emmagatzematge d'arxiu definides en l’OAIS integren en el mateix model conceptual la noció de gestió d'emmagatzematge jeràrquic (HSM). Quan es va definir l'estàndard OAIS no es concebia encara la possibilitat de gestionar còmodament grans quantitats de dades de cap altra manera. La qüestió pràctica que sosté l'opció HSM consisteix en la diferència de cost entre diferents mitjans d'emmagatzematge, és a dir, la premissa per la qual l'emmagatzematge sobre disc dur resulta més car que sobre cinta. L’HSM ofereix en aquest context un magatzem virtual d'informació unificat, encara que en la realitat les còpies de dades poden estar escampades per un bon nombre de tipus de suport diferents en funció de l'ús i de les velocitats d'accés.

6.3.22.2 Tanmateix, el cost del disc dur ha disminuït a un ritme més gran que el de la cinta, fins al punt de resultar equivalents de preu. Conseqüentment, l'ús de l’HSM passa a ser una opció d'implementació. En aquestes circumstàncies, un sistema d'emmagatzematge que contingui totes les seves dades en un conjunt de discs al mateix temps que una còpia completa en un conjunt de cintes resultarà un opció molt assequible especialment per a sistemes d'emmagatzematge digital de fins a 50 terabytes (valor que creix any rere any). Per a sistemes de menors dimensions, en canvi, un HSM completament funcional resultarà innecessari. En lloc d’això es poden preveure sistemes molt més senzills que administrin i mantinguin informació sobre la localització de les còpies i l'edat i versió dels mitjans fungibles, i també, naturalment, que repliquin sobre disc dur i sobre cinta el conjunt de les dades emmagatzemades.

6.3.22.3 L'opció d’implementar un HSM es manté com a preferent per a sistemes d'emmagatzematge digital de mitjana i gran dimensió, i continua essent-ne un dels components més cars.

6.3.23 Programari de gestió de fitxers per a sistemes de petites dimensions

6.3.23.1 En sistemes en què el conjunt de l'arxiu es troba duplicat en disc dur i cinta, el propòsit del programari de gestió d'arxius és el seguiment de la ubicació, condició, precisió i edat de les còpies en cinta. Aquesta funcionalitat bàsica per a les còpies de seguretat constitueix una alternativa de baix cost respecte a un HSM clàssic i pot, almenys en teoria, ser més fiable per a sistemes més petits. No obstant això, com que els HSM per a sistemes a gran escala representen una part significativa del mercat, la indústria del sector hi destina els principals esforços en investigació i desenvolupament. Les solucions de programari per a la gestió de fitxers a petita escala es desenvolupen entre la comunitat de programadors i usuaris de codi obert, entre les quals cal destacar tres populars aplicacions NAS: FreeNAS, Openfiler i NASLite, a més d'Advanced Maryland Automatic Network Disk Archiver (AMANDA). Com en qualsevol solució de codi obert, recau en l'usuari la responsabilitat de comprovar la conveniència i la fiabilitat de la proposta, de manera que, sense més detall, aquesta publicació s'absté de fer recomanacions específiques.

6.3.24 Verificació i recuperació de dades

6.3.24.1 Hi ha programes comercials que permeten la detecció automàtica d'errors de lectura/escriptura en la cinta durant els processos de còpia de seguretat i verificació. Aquesta funció s'implementa habitualment mitjançant la revisió de codis de redundància cíclica, tecnologia basada en una suma de verificació entre el codi i les dades que permet detectar els errors esdevinguts durant la transmissió digital o l'emmagatzematge. Es recomana per a tot sistema d'arxiu la implementació d'una funció de comprovació d'errors. Aquesta implementació resulta difícil quan s’empra programari de codi obert, ja que el control d’errors es vincula estretament a l'especificitat del maquinari involucrat. Una opció comercial en aquest sentit la constitueix el dispositiu lector/verificador de cartutxos LTO "Veritape", de MPTapes Inc. Fuji Magnetics, d'altra banda, va anunciar un sistema de diagnòstic basat en la lectura d'un xip per a cassets LTO, associat a un programari propietari.

6.3.25 Integritat i sumes de verificació

6.3.25.1 Una suma de verificació és un càlcul el valor del qual serveix per a verificar que totes les dades emmagatzemades, transmeses o replicades es troben lliures d'error. Aquest valor es calcula d'acord amb un determinat algorisme i es transmet o s’emmagatzema amb les dades. Cada vegada que les dades es tornen a consultar, es tornarà a calcular la suma de verificació i es compararà amb el valor original. Si coincideixen, no hi ha error. Els algorismes de verificació de dades són de diversos tipus i versions i constitueixen una pràctica estàndard recomanada per a la detecció d'errors accidentals o intencionals esdevinguts en fitxers d'arxiu.

6.3.25.2 Les versions criptogràfiques són les úniques amb un provat historial d'èxit en la protecció de dades davant de danys intencionals. No obstant això, també aquesta opció es veu compromesa avui dia. Recentment s'ha demostrat que hi ha formes de crear bits sense sentit, capaços de recrear la suma de verificació generada per l'algorisme MD5. Això significa que qualsevol intrús intern o extern podria ser capaç de substituir contingut digital valuós per dades sense sentit, sense que el sistema de revisió contra errors ho pogués detectar: ​​l'atac només es constataria durant l'eventual consulta del fitxer corrupte. L'algorisme d'encriptació MD5, tot i que encara és útil en termes de transmissió de dades, utilitza només 128 bits, i per això no s’hauria d'usar allà on la seguretat sigui un factor crucial. L’SHA-1 és un altre algorisme criptogràfic sota amenaça, ja que s'ha demostrat vulnerable en teoria. La longitud de l’SHA-1 és de 160 bits. L’SHA-2 disposa de versions diferents amb longituds de 224, 256, 384 i 512 bits, i resulta algorítmicament similar a l’SHA-1. El creixement constant de la potència computacional significa que, a llarg termini, la seguretat aportada per aquests algorismes i les seves sumes de verificació es veurà també vulnerada.

6.3.25.3 Malgrat tots aquests compromisos, la suma de verificació continua essent una opció vàlida per a la detecció d'errors accidentals, i si s'incorpora a un repositori digital de confiança pot ser perfectament capaç de revelar danys intencionals sobre fitxers de dades en situacions de baix risc. No obstant això, allà on hi hagi risc, i fins i tot on no estigui previst, el monitoratge de les sumes de verificació i de la seva viabilitat ha de formar part del pla de preservació.