6.3 Stockage des archives

6.3.1 Paquet d'informations archivé (AIP)

6.3.1.1 La définition de l'expression Stockage des Archives dans l'OAIS comprend les services et les fonctions nécessaires au stockage du paquet d'informations archivé (AIP). Le stockage des archives comprend la gestion des données, il inclut en outre divers processus tels que la sélection des médias à stocker, le transfert de l'AIP au système, la sécurité et la validité des données, la sauvegarde et la restauration des données, et enfin la duplication de l'AIP sur de nouveaux supports.

6.3.1.2 L'AIP, tel que défini dans le modèle de référence OAIS (CCSDS 650.0-B-1, Modèle de référence pour un Système ouvert d'archivage d'information (OAIS)), est un paquet d'information utilisé pour transmettre des objets d'archivage vers un système d'archivage numérique, pour stocker les objets dans le système, et pour transmettre les objets à partir du système. Un AIP contient à la fois les métadonnées qui décrivent la structure et la représentation du contenu archivé, et le contenu en tant que tel. Il se compose de multiples fichiers de données qui détiennent une entité de paquetage soit logique soit physique. L'implémentation du SIP peut varier d'un établissement d'archives à un autre; Elle définit toutefois un containeur qui contient toutes les informations nécessaires à la pérennisation et à l'accès des archives. Les métadonnées du modèle OAIS s'appuient sur les spécifications METS.

6.3.1.3 D'un point de vue physique, l'AIP comprend trois parties ; les métadonnées, l'information de représentation et l'information d'empaquetage, toutes constituées d'un ou plusieurs fichiers (voir 6.1.7 Définition de l'objet numérique). L'information d'empaquetage peut-être considérée comme une information d'enveloppe qui encapsule les métadonnées et les composantes du contenu.

6.3.2 Bases du stockage des archives

6.3.2.1 Le stockage des archives fournit les moyens de stocker, de préserver et de permettre l'accès au contenu archivé. Dans des petits systèmes, le processus de stockage peut être indépendant et opéré manuellement. Pour les systèmes de plus grande taille, les opérations de stockage sont généralement exécutées conjointement avec les applications de catalogage, avec les systèmes de gestion, de récupération de l'information et de contrôle des accès pour pouvoir gérer le contenu des archives et disposer d'une voie d'accès à ceux-ci.

6.3.2.2 Le stockage des archives doit être connecté aux équipements qui effectuent les entrées et procèdent à la création des documents destinés à être archivés, qui doivent fournir une interface sûre et fiable utilisable pour importer les données au système de stockage.

6.3.2.3 Un système de stockage des contenus d'archives doit être fiable, ceci de plusieurs manières : il doit être en état de fonctionner sans aucune interruption significative, être capable d'informer le système ou l'utilisateur de la réussite ou non de l'importation des contenus, et ainsi de pouvoir supprimer la copie entrée du fichier d'archives lors de l'importation si nécessaire. L'entité Stockage des Archives doit également être capable de préserver durablement les contenus qu'elle gère et les protéger de tous types de défaillances et de sinistres.

6.3.2.4 Un système de Stockage d'Archives doit être réalisé conformément aux attentes de l'exploitant ; il doit être correctement dimensionné pour répondre aux services attendus, pour gérer quotidiennement les fonctions requises. En outre, l'entité Stockage des Archives doit permettre l'accès contrôlé des contenus à des utilisateurs disposant des autorisations ou des droits d'accès.

6.3.3 Système de stockage en masse (Digital Mass Storage Systems (DMSS))

6.3.3.1 Un système de stockage en masse se réfère à un système d'information (SI) conçu et réalisé pour stocker et assurer la maintenance de grands volumes de donnée pour une période définie ou indéfinie. De tels systèmes peuvent prendre de nombreuses formes ; un DMSS de base comprendra un ordinateur personnel de capacité suffisamment importante et dont le mode de catalogage permet de garder trace du traitement des documents. Un système DMSS plus complexe comprendra un disque dur et / ou une unité de bandes magnétiques avec un ensemble d'ordinateurs contrôlant l'entité de stockage. Un système DMSS peut aussi se composer de nombreux niveaux de stockage aux caractéristiques diverses : une connexion haut débit (Fibre Channel (FC)) avec une unité de drive disque dur externe en guise de mémoire cache de données dont le temps d'accès est critique, tandis qu'un dispositif de disques durs moins coûteux peut être utilisé pour recueillir les documents dont le temps d'accès est moins critique, et enfin on pourra envisager le stockage sur bandes magnétiques, dispositif externe le plus économique.

6.3.3.2 Lorsque de nombreuses technologies de stockage sont mobilisées pour constituer une entité fonctionnelle de grande taille, un système de stockage hiérarchique des données (Hierarchical Storage Management (HSM)) est généralement déployé pour harmoniser le fonctionnement de ces différentes technologies. Des systèmes de taille encore plus importante peuvent aussi être répartis géographiquement afin d'améliorer les performances et la tolérance aux défaillances.

6.3.4 Types de bandes de données et introduction des formats

6.3.4.1 Dans ce qui suit, on évoque brièvement certains des principaux formats de bandes et systèmes automatiques utilisés pour le stockage de contenus audiovisuels numérisés. Dans un système DMSS, les bandes sont utilisées uniquement en association avec d'autres composants. Il est prudent de commencer cette présentation en comparant les différents formats de bandes, en retenant bien qu'aucun support n'est durable et que, toutes choses restant égales par ailleurs, ils ne seront viables que le temps de disponibilité du système dans lequel ils seront incorporés.

6.3.5 Performance des bandes de données

6.3.5.1 Le format géométrique et les dimensions conditionnent les performances. La vitesse de transfert des données, un des aspects des performances, dépend directement du nombre de pistes inscrites et lues simultanément, mais aussi de la vitesse relative tête-bande, de la densité linéaire et du codage. De même, une dimension réduite, un boîtier plus léger augmentent la cadence des mouvements dans le robot. La densité des données résulte :

    6.3.5.1.1 des compromis longueur et épaisseur de la bande
    6.3.5.1.2 de la largeur des pistes et de leur pas
    6.3.5.1.3 de la densité linéaire des données réparties sur chacune des pistes

6.3.6 Revêtements des bandes

6.3.6.1 Il existe deux types principaux de revêtement : à particules et à évaporation. La couche des premières bandes de données était constituée de particules d'oxyde métallique similaires aux bandes vidéo, tandis que les bandes plus récentes utilisent des particules métalliques (Metal Particules (MP)). Des particules de fer pur avec céramiques inertes et oxydes passivés sont dispersées dans des liants polymères appliqués uniformément sur un film polyester PET ou PEN ou autre substrat de bonne stabilité dimensionnelle et résistant à la traction. Certaines bandes de densité les plus élevées actuellement sur le marché utilisent un revêtement à métal évaporé tel que des alliages de cobalt ou d'autres matériaux similaires à ceux utilisés pour les disques durs. Cette technologie permet de disposer de matériaux magnétiques de plus grande pureté et de réaliser des couches encore plus minces. La plupart des bandes à métal évaporé (Metal Evaporated (ME)) comportent une couche polymère de protection similaire au liant des bandes MP. Les formulations les plus récentes comprennent également une couche de protection céramique. Certaines bandes ME de la première époque deviennent défectueuses par délamination après un usage intensif (Osaki 1993 : 11).

6.3.7 Modèles de boîtiers

6.3.7.1 Deux types de boîtiers sont utilisés principalement : les cassettes à deux axes (parfois appelées coplanaires [NDT]), pour lesquelles le temps d'accès peut être plus rapide, et les cartouches à axe unique (parfois appelées monoplanaires [NDT]) qui offrent une plus grande capacité pour un encombrement donné.

6.3.7.2 Les cassettes à deux axes comprennent :
    3,81 mm, essentiellement DDS [dérivée de DAT]
    QIC [quarter-inch cartridge] cartouche quart de pouce et TRAVAN
    Formats 8 mm, y compris Exabyte et AIT
    DFT
    Storagetek 9840    

6.3.7.3 Les cassettes à un axe comprennent :
    IBM MTC et formats Magstar tels que 3590, 3592 et TS1120
    Quantum S-DLT et DLT-S4
    LTO Ultrium [100, 200, 400 & 800 GB]
    Storagetek 9940 et T 10000
    Sony S-AIT    

6.3.7.4 En matière d'archivage pérenne, aucun modèle ne l'emporte sur un autre, la durée de vie dépend d'un ensemble de détails spécifiques à chaque format. Par exemple, certains modèles de cartouches 1/2 pouce à axe unique disposent de guides de grand diamètre dans le boîtier qui réduisent le frottement au minimum et assurent un guidage précis de la bande. On a l'expérience de problèmes de blocage de l'amorce dans le mécanisme d'anciennes cartouches à axe unique, même si leur fiabilité a été améliorée pour des modèles plus récents. Certaines cassettes à deux axes peuvent-être pré-positionnées en milieu de bande pour réduire au minimum le temps nécessaire pour atteindre n'importe quel fichier. Cette pratique va à l'encontre de celles habituellement adoptées pour les archives audiovisuelles qui consistent à enrouler soigneusement la bande jusqu'à son extrémité avant stockage afin que l'amorce seule soit exposée aux mécanismes de fixation. Mais généralement les bandes ne sont pas incorporées dans un boîtier hermétique qui les protégerait à l'instar des disques durs.

6.3.8 Bandes à lecture longitudinale et hélicoïdale

6.3.8.1 Les données peuvent être écrites ou lues à l'aide d'une tête fixe, procédé généralement décrit par le terme linéaire, ou bien avec un dispositif de tête tournante ou hélicoïdale. Les bandes linéaires présentent un tracé de piste en serpentin, on a estimé que ces mouvements de va-et-vient pouvaient user la bande ou encore produire un effet de lustrage. En principe, les bandes actuelles sont conçues pour supporter un grand nombre d'allers retours ; toutefois, il reste plus prudent de donner accès à des contenus fréquemment utilisés à partir d’un disque dur. Les bandes, sujettes aux phénomènes de décomposition chimique par hydrolyse ou autre réaction, glisseront mieux sur les pièces immobiles du chemin de défilement à des vitesses de 1 à 2 m/s ou davantage, vitesses typiques pour les têtes fixes ou formats linéaires. La vitesse relative tête-bande est plus élevée avec les têtes tournantes ou format hélicoïdal, un phénomène de coussin d'air se créé entre la surface de la bande et les têtes, mais la vitesse relative entre la bande et les pièces de guidage fixes étant beaucoup plus faible, un encrassement se produit fréquemment.

6.3.9 Mémoire auxiliaire et dispositifs d'accès

6.3.9.1 Les formats tels qu'AIT comportent une carte mémoire "Mémoire intégrée à la cassette" (Memory in Cassette (MIC)) qui stocke les informations relatives au positionnement des fichiers, procédé analogue à la Table des contenus (Table of Content (TOC)) des disques compacts qui permet une localisation rapide des données. Les cassettes DFT utilisent une mémoire rf (Radio Frequency Identification (RFID)).

6.3.10 Obsolescence des formats et cycles technologiques

6.3.10.1  C’est le propre du stockage de données que d’être en progrès et développement constants, ce qui signifie que les évolutions, et l’obsolescence qui les accompagne, sont inévitables.  Une gestion réaliste des contenus à long terme doit accepter cette situation, intégrer l'évolution continuelle par la mise à niveau des matériels et des médias. Si le noyau de l'infrastructure,  comme les câblages de transmission des données ou les espaces de rangement, peut rester fonctionnel pendant dix ou vingt ans, chaque driver, chaque support a une durée de vie beaucoup plus courte. La projection du développement des principaux formats de bandes de données implique la mise à jour de la feuille de route tous les 18 mois à 2 ans. La rétrocompatibilité des systèmes en mode lecture uniquement est parfois assurée pour une à deux générations de supports d’une même famille. En conséquence, une génération donnée de lecteurs de bandes et de supports peut-être opérationnelle pendant seulement 4 à 6 ans, durée au terme de laquelle il est essentiel de migrer les données et de changer de système 21. Qui plus est, le coût de maintenance des matériels de stockage  de masse tend à augmenter sensiblement quand l'ancienneté du système dépasse la période de garantie. Dans ce cas, on peut difficilement acquérir des pièces détachées neuves pour les bibliothèques de bandes ou les lecteurs, pour ne citer que ces exemples. Un résumé de feuilles de route prévisionnelles est présenté ci-dessous. De nombreux formats  sont compatibles en lecture seule, avec au moins une génération antérieure.
 

Familie 1ère Génération 2ème Génération 3ème Génération 4ème Génération 5ème Génération 6ème Génération
Quantum SDLT SDLT220 110GBytes SDLT320 160GBytes SDLT600 300GBytes DLT-S4 800GBytes    
IBM     3592 2004 300GB 40MB/s TS1120 2006 700GB 104MB/s    
Sun - Storagetek   9940B 2002 200GB 30MB/s T10000 2006 500GB 120MB/s T10000B-2008 ITB 120MB/s    
LTO LTO-1 2001 100GB 20MB/s LTO-2 2003 200GB 40MB/s LTO-3 2004 400GB 80MB/s LTO-4 2007 800GB 120MB/s LTO-5 no date (2009+) 1.6TB 180MB/s (estimé) LTO-6 no date (2011+) 3.2TB 270MB/s (estimé)
Sony S-AIT S-AIT 2003 500 GB 30MB/s S-AIT2 2006 800 GB 45MB/s        
Sony AIT     AIT-3 2003 100 GB 12MB/s AIT-4 2005 200 GB 24MB/s    

Tableau 1 paragraphe 6.3 Projection de la feuille de route des bandes de données


21. Ceci implique un certain gaspillage et une pression environnementale qui dépasse le champ de notre discussion purement technique, mais en réalité, une grande bibliothèque détenant des bandes anciennes consomme davantage de polymères, c'est-à-dire une plus grande quantité de produits d'origine pétrochimique qu'un nouveau système haute densité utilisant des lecteurs et robots plus efficaces au plan énergétique et qui, par la même occasion, occupera moins d'espace construit.

6.3.11 Récupération automatisée ou manuelle des données

6.3.11.1 Pour des opérations à petite échelle, il est possible de sauvegarder les données d'une petite station avec un lecteur de bande, puis de placer manuellement la cartouche enregistrée sur une étagère pour un stockage traditionnel. Pour les systèmes en réseau de taille réduite également, on peut effectuer des sauvegardes manuelles des données archivées (voir aussi Chapitre 7 Approches des systèmes de stockage à petite échelle). Les mêmes conseils prodigués à propos des conditions d'environnement de stockage s'appliquent également aux autres types de bandes magnétiques ; dans ce cas il ne peut être que bénéfique de bien veiller à réduire au maximum la présence de poussière, particules et agents polluants. Pour des opérations de plus grande échelle, notamment dans les pays où le coût du travail est élevé et les budgets d'équipement plutôt favorables, un certain niveau d'automatisation est d'ordinaire souhaitable car plus économique que les systèmes exclusivement manuels. Le niveau d'automatisation dépend de l'ampleur et de l'importance des tâches à accomplir, du type d'accès du contenu, des ressources.

6.3.11.2 Bibliothèques de bandes à autochargeurs et robotisées : après les simples drives lecteurs, on évoquera les petits systèmes équipés d'un automate de chargement, d'un lecteur unique (parfois double), de cassettes en rangée simple ou en carrousel qui seront chargées au moment des opérations de sauvegarde. La principale différence entre les autochargeurs et les robots des grandes bibliothèques  se trouve dans le mode de lecture :  les bandes enregistrées ne sont pas identifiées par un logiciel de sauvegarde dans une base de données centrale permettant la récupération automatique des données. Au contraire, Les tâches  de recherche, de récupération et de chargement des fichiers individuels incombent encore à un opérateur.  Tous ce que font ces systèmes à chargement automatique, c’est de permettre, comme leur nom l'indique, l'écriture ou la lecture séquentielle  d’un lot de bandes afin de surmonter les limitations d'échelle des  supports de données individuels, et de se passer de la présence d'un opérateur pour effectuer le chargement de la bande suivante lors d'un long processus de sauvegarde.

6.3.11.3 En contraste, même les plus petites bibliothèques automatisées sont programmées pour se comporter comme un simple système autonome de stockage. La localisation de fichiers individuels sur différentes bandes est transparente pour l'utilisateur, le contrôleur garde la trace de l'adresse des fichiers sur chaque bande, ainsi que la localisation physique des bandes dans la bibliothèque. Si les bandes sont retirées ou rechargées, le système du robot scanne à nouveau l’emplacement de la bande pour mettre à jour son inventaire à l'aide des métadonnées détenues dans le code à barres, ou bien par identification rf des étiquettes ou des puces mémoires que comportent certains boîtiers.

6.3.11.4 Les bibliothèques de bandes de grande taille présentent quelques avantages en comparaison des plus petites bibliothèques. Elles peuvent être conçues pour accueillir des informations redondantes et les distribuer : les temps d'arrêt peuvent-être minimisés et les chargements lecture / écriture répartis sur plusieurs systèmes similaires. Les bibliothèques de grande taille peuvent aussi être utilisées en tant que système polyvalent. Elles peuvent, par exemple, effectuer les opérations de maintenance des sauvegardes d'une société de service informatique tout en assurant la gestion des archives sonores et audiovisuelles dans leur totalité.       

6.3.11.5 Les bandes de données en bobine libre ou en cartouche utilisées dans les systèmes robotisés bénéficient des systèmes de codes à barres, d'étiquettes rf ou autres dispositifs d'identification. Ces systèmes de reconnaissance optique ou électromagnétique se conjuguent parfois avec un codage MIC afin de disposer d'informations supplémentaires ID de la bande et des contenus. Certains formats incorporent un système ID global de codes à barres, aussi une bande utilisée dans une bibliothèque robotisée peut-elle être reconnue par un autre système de bibliothèque.

6.3.11.6 Logiciels de sauvegarde et de migrations, calendrier : des confusions et incompréhensions se manifestent dans le milieu des technologies de l'information (IT) et dans la communauté de l'archivage des données à long terme. On relève deux idées fausses très répandues dans l'opinion. La première, que l'archivage est un processus qui consiste à déplacer des supports peu utilisés, d’un système coûteux composé de disques durs de stockage en réseau  vers un dispositif local non connecté (offline), sur étagère, moins coûteux mais qui, inaccessible, ne permettra jamais la récupération des données ; la deuxième, que la sauvegarde est une opération de routine quotidienne ou hebdomadaire de duplication de la totalité des données stockées dans le système.

6.3.11.7 A propos de la première idée fausse, certains documents sonores parmi les plus importants et les plus précieux peuvent  effectivement ne pas être utilisés pendant des mois, voire des années, mais, pour autant, leur survie doit être garantie sans concession. De même pour la seconde idée fausse, si des règles appropriées sont mises en œuvre, il n'est pas nécessaire de dupliquer chaque jour ou chaque semaine une quantité importante de données alors qu'une faible proportion d'entre-elles est actualisée. En pratique, si un processus strict de duplication des données sur différents média placés en des lieux différents est essentiel pour minimiser les risques de défaillance technologiques et assurer la récupération de données en     cas de sinistre, les caractéristiques particulières d'un patrimoine numérique nécessitent des procédures qui différent des opérations de routine utilisées dans le domaine des technologies de l'information (IT).  

6.3.11.8 Les systèmes HSM (Hierarchical Storage Management) conventionnels peuvent être optimisés pour effectuer régulièrement les sauvegardes de tous les documents et déplacer les contenus les plus rarement utilisés vers des emplacements inaccessibles. Des systèmes plus élaborés peuvent être configurés en fonction des règles de gestion et des pratiques des services d'archives de différentes tailles, pour lesquels plusieurs niveaux d'accès peuvent être proposés. Une institution de taille moyenne peut emmagasiner 100 GB de données audio chaque semaine ou 1 TB de programmes vidéo. Il est clair qu'il faut réaliser des copies dès l'entrée de documents précieux dans le système et préserver l'accessibilité des contenus fréquemment utilisés.

6.3.11.9 Certaines fonctions de base de logiciels de gestion d'archives optimisent les ressources et les composantes matérielles du système tout en régulant le trafic et en ne provoquant qu'un retard minimum pour les utilisateurs. Les logiciels HSM permettent de définir les critères de migration des fichiers, d'un disque en ligne vers une bande, critères tels que : ancienneté du document, volume de données atteint, localisation dans tel ou tel sous-dossier, ou bien encore espace restant disponible sur le disque dur (lignes de niveau supérieur et inférieur).

6.3.11.10 Typiquement, lorsqu'on produit des fichiers haute résolution et leur copie d'accès basse résolution, la version haute résolution réalisée pour la conservation des documents et les transmissions radiophoniques devra être migrée sur bandes afin de libérer de l'espace sur les disques durs, plus coûteux. Un équilibre est nécessaire pour maintenir la disponibilité  des informations tout en optimisant l'utilisation des lecteurs de bandes et des médias. Si l'on doit accéder aux bandes de manière très fréquente, les chargements et déchargements de celles-ci, les opérations d'enroulement et de remise en route répétées auront pour conséquence la dégradation des performances du système. Les systèmes de gestion de contenus plus élaborés comportent des niveaux inférieurs de gestion du stockage, de sorte que  les utilisateurs ont une conscience moindre des fichiers individuels et composants qui soutiennent le système.

6.3.12 Sélection et contrôle des bandes de données

6.3.12.1 Pour tout système de conservation, il est important, non seulement de disposer de copies de sauvegarde et d'exemplaires redondants pour pallier les défaillances des média et des matériels, mais aussi, et de manière vitale, de pratiquer l'analyse des performances des éléments essentiels du système. Des logiciels, tels que SCSI-Tools permettent une interrogation bas niveau de chacun des drives et dispositifs en réseau afin de déterminer si les performances des médias et des appareils sont optimales. Les bandes LTO disposent d'une interface de contrôle des données, mais cette fonctionnalité est rarement utilisée alors qu'elle le serait de manière avantageuse pour les systèmes d'archivage. Certains systèmes HSM sont capables d'effectuer des contrôles réguliers de la qualité des documents stockés. De tels systèmes contrôlent les taux d'erreurs lorsque les utilisateurs accèdent aux contenus ou les lisent, ou bien sans aucune intervention lorsqu'une bande n'a pas été utilisée pendant un certain temps.

6.3.13 Coûts

6.3.13.1 Typiquement, le coût de stockage sur bande se répartit sur quatre postes : la bande elle-même : approvisionnement et remplacement de l'exemplaire de base, bandes de sauvegarde, ceci tous les 3 à 5 ans ; les lecteurs de bande : approvisionnement et remplacement tous les 1 à 5 ans, avec assistance technique ; l'achat et la maintenance de bibliothèques robotisées pour un cycle de vie de 10 ans, et enfin les logiciels : achat, intégration/développement et maintenance.

6.3.13.2 Dans un système manuel, l'archivage sur étagères est moins coûteux, seulement l'espace nécessaire pour le personnel est plus important, et les tâches de recherches manuelles et de vérification se montrent plus onéreuses. Dans un système robotisé, une grande partie des coûts en ressources humaines est compensée par les frais d'équipements et de logiciels. Les grandes bibliothèques de bandes robotisées peuvent être acquises de manière modulaire pour répartir les coûts sur plusieurs années au fur et à mesure que le fonds d’archive s’accroît. Selon la durée de vie d'une bibliothèque de bandes robotisée, ses équipements tels que les lecteurs - enregistreurs seront remplacées par de nouveaux dispositifs tous les trois à cinq ans. Si un fonds d'archives est consulté en permanence, la durée de vie des lecteurs - enregistreurs peut-être écourtée, une année seulement ou moins. Des bandes et lecteurs plus anciens peuvent être réservés en surnombre si nécessaire. Si la croissance d'un service d'archives est lente, la génération actuelle de bandes et lecteurs ainsi que la génération suivante peuvent coexister dans une bandothèque le temps de migrer les contenus vers la nouvelle génération de médias ou de technologie. Si la taille du service d'archives augmente de manière régulière, il peut-être préférable, au plan économique, de créer une bibliothèque de bandes de dimension exactement nécessaire au stockage de données archivées pendant la durée de vie de la technologie en cours, puis de faire l'acquisition d'un nouveau système de capacité plus importante pour accueillir les documents issus de la nouvelle génération technologique ainsi que les contenus provenant de la migration de documents plus anciens. Cette approche est également nécessaire si ancienne et nouvelle technologie ne peuvent coexister dans la même unité.

6.3.13.3 Conserver au moins une copie redondante hors site ou géographiquement éloignée est une bonne pratique. Un rayon de 20 à 50 km est généralement indiqué vis-à-vis des risques naturels ou d'origine humaine, il permet de récupérer manuellement les données en quelques heures. Pour diminuer d'autres risques, les copies supplémentaires devront être réalisées sur différents lots ou des sources différentes de média, ou bien encore faire appel à différentes technologies. Certaines bandes de données proviennent d'un seul fabricant, aussi les risques d'être confronté à un seul mode de défaillance augmentent-ils. Trois copies des données sont plus sûres que deux, et malgré l'augmentation du coût des supports, les dépenses dues aux équipements et aux logiciels ne seront que légèrement supérieurs à celles de la première copie.

6.3.14 Disques durs (Hard Disk Drives (HDD)) Introduction

6.3.14.1 Les disques durs (HDD) ont été utilisés en temps que mémoire primaire et mémoire de stockage des ordinateurs depuis le lancement par IBM du modèle 3340 en 1973. Son surnom "le Winchester" provient de l'appellation 30/30 correspondant à ses 30 GB de mémoire fixe et ses 30 GB de mémoire amovible, expression répandue chez les professionnels qui reprenait le nom du célèbre fusil. La fiabilité des disques durs devait être démontrée grâce à la conception innovante des têtes de ce modèle. La réduction de la taille, les développements de la conception de la tête et du disque ont largement contribué à augmenter la fiabilité des disques durs et à produire des modèles robustes d'usage courant de nos jours.

6.3.14.2 les gestionnaires de systèmes de données, responsables de la maintenance des informations, ont considéré que les disques durs n'étaient pas suffisamment fiables pour n'utiliser qu'une seule copie d'un item, mais que les copies multiples de disques étaient trop coûteuses, et qu’ en conséquence, il convenait d'utiliser des systèmes multidisques, plus fiables. Les données sur HDD ont donc été dupliquées plusieurs fois sur des bandes pour assurer leur sauvegarde. Comme indiqué ci-dessus (6.1.4 Aspects pratiques des stratégies de protection des données et 7.6 stockage d'archives), tous les systèmes de données devront réaliser des copies multiples séparées de la totalité des données. Les experts ont tendance à penser que le système de données le plus fiable est constitué de HDD en baie, renforcés par des copies multiples sur bandes ; pour autant, la diminution continue des coûts et l'augmentation de la fiabilité rendent possible le concept de la duplication à l'identique des données sur disques séparés. Le principe de la duplication multi- supports demeure, alors que le stockage sur disque unique constitue un risque.

6.3.15 Fiabilité

6.3.15.1 Les pertes de données consécutives à la défaillance de disques et de crashes de têtes ont rendu la plupart des professionnels de systèmes informatiques méfiants à l'égard des HDD ; toutefois les fabricants annoncent des taux annuels de défaillance inférieurs à un pourcent pour un période de fonctionnement de 40 000 heures (Plend 2003). Les drives très fiables peuvent même prétendre à une durée de vie opérationnelle plus longue, celle-ci étant définie par la durée moyenne séparant deux avaries ("mean time between failure"). Bien que les HDD soient indépendants, scellés dans un boîtier, ainsi protégés des dommages, la plupart des défaillances se produisent de deux manières contradictoires : par l'usure résultant d'une utilisation prolongée, ou bien par des mises sous tension- hors tension successives. Le dilemme est de choisir entre laisser le disque en activité, ce qui augmente l'usure, ou bien allumer-éteindre le système, pratique qui accroît les risques de défaillance.

6.3.16 Description des systèmes, complexité et coûts

6.3.16.1 Comme il a été noté dans le chapitre 2 - Clés du numérique-Principes, la puissance des dernières générations d'ordinateurs permet la manipulation de gros fichiers audio. Toutes les générations récentes d'ordinateurs incorporent des disques durs de vitesse et de capacités acceptables, ils offrent la possibilité de brancher un HDD externe via un port USB, Firewire ou SCSI. La complexité des systèmes, le niveau d'expertise nécessaire pour les utiliser ne sont guère plus importants que dans le cas des ordinateurs portables.

6.3.16.2 Lorsque de très grandes quantités de contenus audio et audiovisuels doivent, pour des raisons d'accès et de stockage, être stockées sur HDD, les disques sont généralement intégrés dans un dispositif RAID (Redondant Array of Inexpensive (or Independant) Disks - Regroupement redondant de disques indépendants). Le système RAID augmente la fiabilité des disques durs ainsi que la vitesse totale d'accès en traitant les disques groupés comme un seul disque de grande taille. Si un disque tombe en panne, il peut-être remplacé et toutes les données de ce disque reconstruites à partir des données réparties sur les autres disques de l'ensemble. Le niveau des défaillances tolérées par le système et la vitesse de récupération des données perdues déterminent les niveaux du système RAID. Le RAID n'est pas un outil de préservation des données, mais un moyen de maintenir l'accès à celles-ci malgré les défaillances inévitables des disques. Le niveau RAID adapté à une installation donnée, les conditions de duplication des mémoires du contrôleur, sont indépendantes des circonstances et de la fréquence des duplications de données. Un système RAID nécessite d'activer tous les disques groupés dès qu'un élément d'un disque est sollicité. Tous les disques RAID contenant des contenus d'archives aussi bien que des données numériques, doivent faire l'objet d'au moins une duplication sur d'autres supports.

Capacité Capacité
native
bande
(GB)
Nb
de
bandes
Nb
lecteurs
recommandées
Nb
maximum
lecteurs
Prix du
système
(€)
Prix
de la
bande
(€)
Prix
du
lecteur
(€)
Coût
par
GB
(€)
10 TB 800 13 2 4 20 480 97 7 625 2,05
50 TB 800 63 4 16 56 800 97 10 175 1,14
100 TB 800 125 8 16 134 050 97 12 725 1,34
200 TB 800 250 12 16 205 350 97 12 725 1,03
500 TB 800 625 18 56 446 938 97 15 975 0,89
1000 TB 800 1250 36 88 864 517 97 15 975 0,86
2000 TB 800 2500 72 176 1 687 690 97 15 975 0,84

Tableau 2 Paragraphe 6.3 : coûts d'investissement d'un système de stockage sur LTO-4

 

Capacité Maintenance
HW An 1
(€)
Maintenance
SW An 1
(€)
Maintenance
HW An 2
(€)
Maintenance
SW An 2
(€)
Maintenance
HW An 3
(€)
Maintenance
SW An 3
(€)
Maintenance
HW An 4
(€)
Maintenance
SW An 4
(€)
Maintenance
HW An 5
(€)
Maintenance
SW An 5
(€)
10 TB 2 420 n/a 2 420 n/a 2 420 n/a 2 514 n/a 2 514 n/a
50 TB 3 454 n/a 4 958 n/a 4 958 n/a 4 958 n/a 4 958 n/a
100 TB 11 808 490 13 817 490 13 817 490 13 817 490 13 817 490
200 TB 15 787 582 19 323 582 19 323 582 19 323 582 19 323 582
500 TB 27 380 1 068 34 111 1 068 34 111 1 068 34 111 1 068 34 111 1 068
1000 TB 47 542 2 115 66 734 2 115 66 734 2 115 66 734 2 115 66 734 2 115
2000 TB 99 272 4 221 99 272 4 221 99 272 4 221 99 272 4 221 99 272 4 221

HW Hardware : équipement
SW Software : logiciels

Tableau 3 Paragraphe 6.3 : coûts annuels de maintenance d'un système de stockage sur LTO-4

Notes à propos des tableaux :

  • Prix moyens établis à partir de tarifs de plusieurs distributeurs. Le prix effectif est généralement inférieur
  • Les prix indiqués correspondent à une capacité brute. Pour les sauvegardes, prévoir au moins une quantité double de bandes
  • Les prix de la colonne du système incluent le prix des bandes et des lecteurs pour la capacité correspondante, ils ne tiennent pas compte du système HSM, équipement et logiciels
  • Les tableaux indiquent seulement les coûts d'investissement et les frais de maintenance facturés par un prestataire. Il faut ajouter les dépenses d'électricité, de climatisation de la salle des machines, de gestion, etc. dans les calculs pour chaque cas. Les coûts d'électricité et de climatisation des systèmes de stockage sur bandes peuvent représenter 10 % des dépenses sur une période de 5 ans.

 

Capacité Technilogie du Drive Capacité du Drive (GB) Nb drives Prix du
système
(€)
Prix
du
Drive
(€)
Coût
par
GB
(€)
5 TB SATA 500–1000 5–10 11 884 1 000 2,38
10 TB SATA 750–1000 10–14 19 997 1 000 2,00
50 TB SATA/FATA 1000 50 124 334 1 800 2,49
100 TB SATA/FATA 1000 100 230 914 1 800 2,31
200 TB SATA/FATA 1000 200 456 942 1 800 2,28
500 TB SATA/FATA 1000 500 1 202 726 1 900 2,41
1000 TB SATA/FATA 1000 1000 2 566 513 1 900 2,57
2000 TB SATA/FATA 1000 2000 4 782 584 1 900 2,39

Tableau 4 Paragraphe 6.3 : coûts d'investissement d'un système de stockage sur HDD

 

Capacité Maintenance
HW An 1
(€)
Maintenance
SW An 1
(€)
Maintenance
HW An 2
(€)
Maintenance
SW An 2
(€)
Maintenance
HW An 3
(€)
Maintenance
SW An 3
(€)
Maintenance
HW An 4
(€)
Maintenance
SW An 4
(€)
Maintenance
HW An 5
(€)
Maintenance
SW An 5
(€)
5 TB 826 750 826 750 826 750 1.845 750 1.845 750
10 TB 1.206 1.125 1.206 1.125 1.206 1.125 2.600 1.125 2.600 1.125
50 TB 5.822 6.125 5.822 6.125 5.822 6.125 12.365 6.125 12.365 6.125
100 TB 10.514 8.500 10.514 8.500 10.514 8.500 22.391 8.500 22.391 8.500
200 TB 21.724 12.750 21.724 12.750 21.724 12.750 44.956 12.750 44.956 12.750
500 TB 57.061 37.250 57.061 37.250 130.394 37.250 130.394 37.250 130.394 37.250
1000 TB 130.203 66.250 130.203 66.250 263.537 66.250 263.537 66.250 263.537 66.250
2000 TB 223.778 124.250 223.778 124.250 477.121 124.250 477.121 124.250 477.121 124.250

Tableau 5 Paragraphe 6.3 : coûts annuels de maintenance d'un système de stockage sur HDD

6.3.17 Stockage sur un seul disque

6.3.17.1 Le nombre de disques RAID peut être augmenté dans les limites du système, tandis que le nombre de disques individuels n'a pas de limite, il suffit d'ajouter des drives. Depuis le lancement des HDD IBM 3340, la capacité de stockage a rapidement augmenté, de manière exponentielle pratiquement, tandis que les prix baissaient. De tels changements ajoutés à l'augmentation de la fiabilité, ont amené certains à penser que le HDD pouvait être utilisé à la fois comme système primaire de stockage et comme copie de sauvegarde. Cette approche rencontre en fait trois difficultés. Premièrement, l'estimation de la durée de vie des disques durs sur la base de durée d'utilisation, du nombre d'heures en opération : Il n'existe pas de tests de durée de vie de HDD peu utilisés. Deuxièmement, disposer de données sur différents médias est avantageux, les risques de défaillance étant répartis, mais, cette approche doit être considérée avec beaucoup de prudence. Enfin, il n'est pas possible de contrôler l'état de disques posés sur une étagère sans les faire fonctionner à intervalles réguliers et donc compromettre l'avantage acquis par leur l'inactivité (voir section 6.3.18 ci-dessous, Contrôle des médias disques durs). Utiliser différents types de supports (bandes et disques durs) reste la meilleure option. Les disques durs devront être implémentés dans un système intégré.

6.3.18 Systèmes de stockage sur disques durs

6.3.18 Systèmes de stockage sur disques durs

6.3.18.1 Les systèmes de stockage sur disques durs sont centralisés afin d'en optimiser l'utilisation et d'offrir de grandes capacités et / ou des performances élevées. Ces systèmes sont utilisés avec des serveurs afin d'épargner une partie ou la totalité des capacités de stockage des disques durs. Ce type de système est fréquemment utilisé pour des environnements de stockage d'archives de moyenne ou de grande taille. Un système peut aussi être constitué d'un dispositif d'archivage centralisé partagé avec un certain nombre d'ordinateurs. La taille d'un système peut varier de 1 téraoctet à plusieurs pétaoctets. On tiendra compte du fait que les performances d'un système de stockage peuvent varier de manière significative en fonction de la configuration choisie, et qu'il est essentiel de planifier soigneusement, et par anticipation, les véritables exigences d'un système : il faudra faire appel à  des professionnels qualifiés  pour configurer la structure de stockage et les interfaces du système  afin de produire le meilleur retour sur investissement.

6.3.18.2 Les systèmes de stockage sur disques durs centralisés sont conçus pour offrir une meilleure protection contre les erreurs que les disques indépendants. Ces systèmes proposent plusieurs niveaux de protection RAID, leurs composants  peuvent être redondants afin d'éviter les points singuliers de défaillances, et les systèmes  peuvent être dispersés localement ou géographiquement  pour protéger  des documents  de grande valeur  contre certaines défaillances et sinistres.   

6.3.18.3 Les liaisons entre système de stockage et ordinateurs dédiés jouent un rôle important quant aux performances du dispositif. De manière générale, deux méthodes sont utilisées : NAS (Network Attached Storage : périphérique de stockage orienté réseau) et SAN (Storage Area Network : réseau de stockage). Les périphériques NAS utilisent les connexions conventionnelles des systèmes d'information telles Ethernet pour véhiculer les données entre ordinateur et système de stockage, tandis que les systèmes SAN adoptent des connexions selon le protocole Fibre Channel. Les systèmes NAS peuvent opérer à des cadences de 100 Mbits/s, 1 Gbit/s et 10 Gbits/s tandis que les systèmes SAN atteignent 2 Gbits/s ou 4 Gbits/s. Les deux technologies disposent de feuilles de route bien établies, aussi peut-on compter sur une évolution des performances à venir. Généralement, la technologie SAN, plus performante grâce à sa conception spécifique, est préférée pour  les environnements les plus exigeants. Par exemple, la taille de blocs entrées/sorties (I/O) peut-être contrôlée plus efficacement dans l'environnement SAN tandis que les protocoles réseaux ont tendance à forcer les systèmes NAS à utiliser des tailles de blocs I/O beaucoup plus petits. Economiquement parlant, la technologie NAS est meilleur marché que la technologie SAN.

6.3.19 Durée de vie des disques durs

6.3.19.1 Comme indiqué ci-dessus, on estime la durée de vie des disques durs (HDD) commercialisés actuellement à 40 000 heures. Les pratiques commerciales correspondent typiquement à un taux de renouvellement de 5 ans. Certains perfectionnements apportés aux modèles les plus récents : roulements de broche en milieu fluide avec billes en céramique, lubrification de la surface des plateaux, permettent de prolonger quelque peu la durée de vie des HDD. Cependant nous ne disposons pas de tests fiables de la durée de vie de HDD inactifs, il serait judicieux de planifier le remplacement des disques d'un tel dispositif dans les 5 ans.

6.3.20 Contrôle des supports disques durs

6.3.20.1 L'indication de défaillance imminente d'un disque peut être produite par l'augmentation du nombre de blocs erronés de données. Typiquement, les derniers modèles de disques, même neufs, présentent des blocs erronés, la plupart des systèmes réagissent en réassignant l'adresse des blocs défectueux. Toutefois, l'augmentation du nombre de blocs défectueux peut être un indicateur du début de défaillance du disque. Des logiciels signalant l'augmentation de blocs de données erronées sont disponibles, ils mesurent aussi d'autres caractéristiques physiques susceptibles d'indiquer des problèmes de disque.

6.3.21 Technologies HDD

6.3.21.1 On compte quatre méthodes principales pour connecter des disques durs et d'autres périphériques aux ordinateurs : USB (Universal Serial Bus), IEEE 1394 (Firewire), SCSI (Small Computer System) et SATA/ATA (Serial Advanced Technology Attachment/AT Attachement). Chaque système présente un avantage particulier dans certaines situations. USB et Firewire sont prévus en tant que bus tout usage pour relier un PC à un HDD, à une caméra vidéo numérique ou bien à un lecteur MP3. SCSI et SATA/ATA sont principalement utilisés pour connecter des drives disques durs avec un ordinateur ou un système de stockage sur disques.

6.3.21.2 L'interface SCSI et ses successeurs SAS (Serial Attached SCSI) permettent des vitesses d'écriture et de lecture plus rapides, elles facilitent l'accès à un plus grand nombre de drives que SATA/ATA ne le permettait. Les disques SCSI peuvent accepter de multiples commandes à la fois sur un bus SCSI, ils n'ont pas à supporter les files d'attente comme SATA/ATA. Les drives SATA/ATA sont comparativement moins coûteux. La vitesse d'accès en mode lecture est pratiquement la même ; dans un contexte audio, aucune interface particulière ne limitera les opérations d'une station audio numérique (digital audio workstation (DAW)). Les différences de performances des drives SCSI/SAS et SATA doivent être prises en compte dans le cadre des systèmes centralisés de stockage sur disques à usage intensif.

6.3.21.3 Les drives Fibre Channel (FC) SCSI/SAS répondent principalement aux exigences des entreprises ou des systèmes d'administration tandis que les drives SATA, moins coûteux, visent davantage le marché des particuliers ; toutefois, on observe une utilisation croissante de ces derniers qui offrent des capacités de stockage plus économiques pour les entreprises et les systèmes d'administration. Dans ces centres de stockage, la décision d'adopter la technologie (FC) SCSI/SAS ou SATA dépend de la charge effective du système. Si un système assure l'archivage de contenu de petite ou de moyenne taille, et qu’on n’a pas besoin d’y accéder fréquemment, une solution SATA peut-être tout à fait suffisante. La décision finale doit être argumentée sur des exigences clairement établies et négociée avec un des fournisseurs de solutions de stockage.

6.3.21.4 Les disques avec interface USB ou Firewire peuvent servir au transfert des contenus d'un environnement à une autre mais, peu fiables, difficiles à contrôler, faciles à perdre, ils ne devront pas être utilisés pour l'archivage, même si les prix peuvent paraître très intéressants.

6.3.21.5 Le type d'interface ne fournit pas d'indication suffisante sur la fiabilité et les performances d'un drive ou d'un système de stockage, aussi l'acquéreur doit-il être bien informé à propos des différentes possibilités d'exploitation et des paramètres de configuration d'un système. Il semble bien que les drives les plus fiables soient associés aux interfaces FC SCSI/SAS. Toutefois, les disques HDD n'étant pas fiables dans la durée, toutes les données audio devront donc être sauvegardées sur des bandes adaptées (voir 6.3.5 Performances des bandes de données). (Pour plus de détails, voir Anderson, Dykes and Riedel 2003).

6.3.21.6 Une technologie de stockage est en train d'émerger, et elle pourrait atteindre une position proéminente dans un futur proche. Le stockage sur mémoire à semi-conducteurs sous la forme de mémoires flash est en train de se développer comme alternative aux disques durs amovibles, et il est déjà utilisé comme alternative aux disques HDD des PC portables. Certains constructeurs de systèmes de stockage ont introduit des drives flash dans leur produit d'entrée et de milieu de gamme, et projettent de les introduire également dans leurs systèmes haut de gamme. Même si le stockage sur mémoire flash doit encore relever certains défis en matière de fiabilité pour constituer une solution viable aux besoins de stockage de la communauté des archivistes : son prix par gigaoctet devient compétitif, il est plus respectueux de l'environnement car moins gourmand en énergie, et il ne comporte pas de pièces mobiles, ce qui pourrait signifier une plus longue durée de vie des unités de stockage. Une durée de vie d'une unité de stockage de dix ans au lieu de cinq ans pourrait se traduire pour un service d’archives par une réduction des coûts d'investissement et de gestion, la migration vers le système de technologie suivante pouvant être supprimée. En termes de performance de lecture et d'écriture, le stockage sur mémoire flash est déjà comparable à la technologie des disques HDD.

6.3.22 Hierarchical Storage Management (HSM) (Systèmes permettant le stockage hiérarchique des données (HSM))

6.3.22.1 Les fonctions de stockage des archives de l'OAIS intègrent la notion de stockage hiérarchique des données (HSM) dans le modèle conceptuel. A l'époque où l'OAIS a été élaboré, on ne pouvait envisager de gérer autrement de grandes quantités de données à prix abordable. La question pratique qui motive la mise en œuvre d'un système HSM est posée par le coût des différents médias de stockage, par exemple le coût élevé des disques de stockage en regard de celui, moins élevé, des bandes magnétiques. Dans cette situation, le système HSM fournit un simple entrepôt virtuel d'informations, alors, qu'en réalité, les copies peuvent être réparties sur de nombreux types de supports en fonction de leur usage et de la vitesse d'accès qu'ils proposent.

6.3.22.2 Néanmoins, le prix des disques durs ayant diminué plus rapidement que celui des bandes, ils se rejoignent. En conséquence, l'utilisation du système HSM devient un choix d'implémentation réaliste. Dans ces conditions, un système de stockage qui détient toutes les données sur disques durs, la totalité de ces données étant également stockées sur un certain nombre de bandes, constitue une proposition abordable notamment pour les systèmes de stockage atteignant une capacité de 50 téraoctets (en augmentation chaque année). Pour les stockages numériques de plus petite taille, un système HSM fonctionnel dans sa totalité n'est pas nécessaire, on envisagera plutôt un système bien plus simple, capable de gérer et conserver les informations sur l’emplacement des copies ainsi que l’âge et les différentes versions des documents, et de dupliquer sur disque et bande magnétique la totalité des données stockées.

6.3.22.3 Pour les systèmes de stockage de moyenne et de grande taille, le recours au système HSM reste et continue de rester une composante parmi les plus onéreuses des systèmes de stockage numérique.

6.3.23 Logiciels de gestion des fichiers des plus petits systèmes

6.3.23.1 L'objectif des logiciels de gestion de fichiers des systèmes dont la totalité de l’archive est dupliquée sur disques durs et bandes, consiste à garder la traçabilité de la localisation, des conditions de création, de la fidélité et de l'ancienneté des copies sur bandes. Ces fonctionnalités fondamentales de sauvegarde constituent une alternative moins coûteuse au système HSM classique et peuvent, au moins en théorie pour les petits systèmes, être plus fiables. Toutefois, les grands systèmes HSM représentent un marché conséquent qui suscite, en matière de recherche et développement dans ce domaine, le soutien de firmes industrielles. Les logiciels de gestion de fichiers de petite taille sont en cours d'élaboration dans la communauté des développeurs de logiciels open source. De tels systèmes font partie des trois applications NAS open source les plus populaires : FreeNAS, Openfiler et NASLite, ainsi que Advanced Maryland Automatic Network Disk Archiver (AMANDA). Comme pour toutes les solutions open source, la responsabilité revient à l'utilisateur de tester la pertinence et la fiabilité de ces systèmes ; sans développements supplémentaires, cette publication ne fera pas de recommandations spécifiques.

6.3.24 Vérifications et récupération de données

6.3.24.1 Grâce à certains logiciels commerciaux, les erreurs de lecture/écriture sur bande peuvent être rapportées automatiquement pendant le processus de sauvegarde et de vérification. Cette fonction est normalement implémentée avec un contrôle de redondance cyclique, une technologie utilisant les checksums (sommes de contrôle) de données qui détecte les erreurs dues aux transmissions ou au stockage. On recommande d'implémenter les fonctions de contrôle d'erreurs dans tout système d'archivage. Il est difficile d'implémenter les contrôles d'erreurs dans l'open source, leur capacité dépendant des spécificités du matériel informatique. Un lecteur autonome de cartouches LTO est commercialisé avec le logiciel de contrôle d'erreurs "Veritape" de MPTapes, Inc. et récemment, Fuji Magnetics a annoncé le contrôle de cassettes LTO avec le Chip Reader Diagnostics System, livré avec un logiciel.

6.3.25 Intégrité et Checksums

6.3.25.1 Le checksum est une valeur calculée pour vérifier qu'aucune donnée stockée, transmise et dupliquée ne comporte d'erreurs. La valeur est calculée selon un algorithme approprié puis transmise ou stockée avec les données. Par la suite, quand on accède à une donnée, un nouveau checksum est calculé et comparé à celui de l'original et si les valeurs concordent, aucune erreur n'est déclarée. L'utilisation d'algorithmes de checksums, dont Il existe de nombreux types et de nombreuses versions, est recommandée sous une forme normalisée pour effectuer la détection des erreurs accidentelles ou intentionnelles des fichiers archivés.

6.3.25.2 Les versions cryptées sont les seules offrant une protection avérée des données vis-à-vis des dégradations intentionnelles de données, alors que même les plus simples d’entre-elles sont en danger On a récemment montré qu'il y avait différentes façons de créer des bits dépourvus de signification permettant d'effectuer des calculs à la manière d'un checksum MD5 donné. Une intrusion de provenance externe ou interne peut ainsi remplacer une partie du contenu numérique avec des données dépourvues de signification sans que cette attaque ne soit signalée par le dispositif de contrôle jusqu'à l'activation des fichiers. MD5, encore utile à des fins de transmission, ne comporte que 124 bits et ne doit pas être utilisé à des fins de sécurité. SHA-1, autre algorithme de cryptage, menace d'être déclassé, il a déjà été montré qu'il pouvait théoriquement être mis en défaut. SHA-1 a une longueur de 160 bits; SHA-2, similaire aux algorithmes SHA-1, est proposé dans les versions 224, 256, 384 et 512 bits. L'accroissement régulier de la puissance de calcul peut compromettre, à long terme, le dispositif de checksum.

6.3.25.3 Même avec de tels compromis, le décompte de checksums reste une approche viable de détections d'erreurs accidentelles ; s'il est incorporé dans un dépôt numérique sûr, il sera en mesure de découvrir des dégradations de fichiers intentionnelles dans des scénarios à faible risque. Néanmoins, lorsque des risques existent, et peut-être lorsqu'ils n'existent pas, le contrôle des checksum et de leur viabilité doit faire partie de la planification des opérations de conservation.