6.3 档案长期存储

6.3.1 存档信息包 (AIP)

6.3.1.1 OAIS 中档案长期存储的定义包括存档信息包 (AIP) 所需的服 务和功能。档案长期存储包括数据管理, 并且包括存储介质选 择、AIP 传输到存储系统、数据安全性和有效性、备份和数据恢 复以及将AIP 复制到新介质的过程。

6.3.1.2 OAIS 参考模型[ CCSDS 650.0 - B - 1 开放档案信息系统 (OAIS) 参考模型] 中对 AIP 的定义: 用于将存档对象传输到 数字长期保存系统、在系统中存储这些对象进而从系统传输出 去的信息包。AIP 包含了描述结构和内容的元数据以及内容信 息本身。它由多个数据文件组成, 这些文件包含逻辑打包或物 理打包的实体。AIP 的实施可能因档案馆而异, 但它指定了一 个容器, 该容器包含长期保存和访问档案馆藏的所有必要信息。 OAIS 的元数据模型基于 METS 规范。

6.3.1.3 从物理角度看, AIP 包含三部分: 元数据、内容和打包信息。三 者都由一个或多个文件组成 (见 6.1. 3)。打包信息可看作包装 信息, 它封装了元数据和内容信息。

6.3.2 档案长期存储基础知识

6.3.2.1 档案长期存储提供存储、保存和访问内容的方法。在小型系统 中, 存储可以独立存在并且可以手动操作, 但是在较大的系统 中, 存储通常与编目应用程序、资产管理系统、信息检索系统和 访问控制系统一起实现, 以便控制和管理存档的内容, 并提供一 种受控的访问方法。

6.3.2.2 档案长期存储必须与摄取和创建归档数字资产的设备相连接, 且 必须提供安全可靠的接口, 以便将数字资产导入存储系统。

6.3.2.3 长期保存系统必须以多种方式保证可靠: 必须可以使用, 没有任 何重大的中断, 必须能够向导入内容的系统或用户报告导入是否 成功, 从而使导入方能够删除档案文件的摄取副本(如果适 用)。档案长期存储还必须能够长期保存其管理的内容, 并能够 保护内容免受各种故障和灾难的影响。

6.3.2.4 长期保存系统应根据所有者的功能需求构建: 必须正确确定存储 系统的规模, 以执行所需完成的任务, 并可完成日运行所要求的 存储量。此外, 必须对具有访问权限的用户提供所存内容的受控 访问。

6.3.3 数字海量存储系统 (DMSS)

6.3.3.1 数字海量存储系统是一个基于 IT 的系统, 该系统是为能够在给 定或更长时间内存储和维护大量数据而规划和构建的。这些系统 有多种形式; 基本的DMSS 可以是一台个人计算机, 它有足够大 的硬盘驱动器和一些可以用来跟踪系统中的资产的目录。更复杂 的 DMSS 可以由硬盘驱动器和(或) 磁带存储以及控制存储实 体的计算机组组成。一个快速的基于光纤的硬盘驱动器层可以用 来缓存那些访问时间至关重要的资产, 而一层更便宜的硬盘驱动 器可以用来存放那些访问时间不那么重要的材料, 最后, 基于磁 带的存储可以作为最具成本效益的存储层。

6.3.3.2 当大型系统中使用多种不同的存储技术构建功能实体时, 通常采 用分级存储管理 (HSM) 系统, 以支持不同技术的协同工作。 更大规模的系统也可以在地理上分布, 以实现更好的性能, 并使 系统更具容错性。

6.3.4 数据磁带类型和格式介绍

6.3.4.1 以下概述了一些主要的数据磁带格式和用于存储数据形式的音视频 内容的磁带自动化系统。数据磁带仅与 DMSS 的其他组件一起使用。 在谨慎比较各种数据磁带格式之前, 应记住, 没有载体是永久性的, 只有它们所在的数据系统继续支持它们, 它们才是可用的。

6.3.5 数据磁带性能

6.3.5.1  格式几何形状和尺寸控制着数据磁带的性能。性能之一的数据 传输速度, 是同时写入和读取的磁迹数量、走带速度、线性密 度和通道编码的直接结果。类似的, 体积更小、更轻的磁带盒 在磁带库中移动的速度更快。数据密度受以下因素影响。

6.3.5.1.1 磁带长度和厚度的权衡。

6.3.5.1.2 磁迹宽度和节距。

6.3.5.1.3 每个轨迹内数据有效载荷的线性密度。

6.3.6 磁带涂层

6.3.6.1  磁带涂层主要有两种类型: 微粒型和蒸发型。最早的涂层数据 磁带使用类似于录像带的金属氧化物, 而最近的数据磁带使用 金属粒子 (MP)。具有惰性陶瓷和氧化钝化层的纯铁粉分散在 聚合物黏合剂中, 被均匀地施加到PET 或 PEN 带基或基材上, 从而保证尺寸的稳定性和张力下的强度。目前市场上最高密度 的数据磁带使用的是用蒸发法制备的钴合金金属箔涂层, 类似 于硬盘上使用的材料。这样可以达到更高纯度的磁性材料, 并 允许更薄的涂层。大多数金属蒸发 (ME) 磁带具有保护性的聚 合物涂层, 类似于MP 磁带上的黏合剂材料。最近的配方还包括 陶瓷保护层。早期的ME 磁带在大量使用时由于分裂脱层而失 败 (Osaki,1993 ∶ 11)。

6.3.7 磁带壳体的设计

6.3.7.1  磁带壳体有两种基本型号: 双盘芯盒式磁带, 可实现更快的存取 时间; 单盘芯卡式磁带, 在给定的外部体积提供更大的容量。

6.3.7.2  双盘芯盒式磁带包括:
3.81mm 宽盒式磁带, 主要是 DDS [衍生自DAT];
QIC (¼ 英寸磁带) 和 Travan;
8mm 格式, 包括 Exabyte 和 AITDTF;
Storagetek 9840。

6.3.7.3 单盘芯卡式磁带包括:
IBM MTC 和 Magstar 格式, 如 3590、3592 和 TS 1120;
Quantum S-DLT 和 DLT-S4;
LTO Ultrium [100 GB、200 GB、400 GB 和 800 GB];
Storagetek 9940 和T 10000;
Sony S-AIT。

6.3.7.4 对于长期存档而言, 这两种设计都不一定优越, 因为寿命由一系 列特定于每一种格式的细节决定。例如, 一些型号的单端 ½ 英寸 卡式磁带在壳体内具有大直径的导带器, 可确保最小的摩擦和精 确的导带。尽管最新的设计在这方面提高了可靠性, 但是在老式 单端卡式磁带中, 引带锁定机制也出现了问题。一些双盘芯盒式 磁带可以在磁带卷绕到一半时停止, 以尽量减少任何特定文件的 卷绕时间。这与存储之前将磁带仔细卷绕在一端, 仅使引带暴露 于穿带装置的音像档案馆的传统做法相矛盾。磁带不像硬盘那样 有一个密封的封闭外壳给予保护。

6.3.8 线性和螺旋扫描磁带

6.3.8.1 数据磁带可以用固定式磁头(一般描述为线性)、旋转式或螺旋 式磁头写入或读取。线性磁带通常遵循蛇形磁迹布局,有人认为 这种穿梭可能导致磨损或所谓的擦鞋效应。在实践中,现代磁带 设计成具有足够的读写次数,但对从硬盘访问常用内容仍持谨慎 态度。经历过水解和其他原因的化学分解,磁带通常会以 1m/s ~2m/s 或更大的速度在磁带路径上的固定导带器和部件上 运行得更好, 这是固定式磁头或线性格式的典型特征。旋转式磁 头或螺旋式磁头通常具有更高的走带速度,在磁带表面和读写磁 头之间产生更大的空气轴承效应,但固定导带器和磁头上的线性 磁带速度要慢得多,所以这里经常结垢。

6.3.9 辅助存储和访问设备

6.3.9.1 格式(如 AIT) 包括固态“盒式磁带内存 (MIC)”, 它存储文件 位置信息, 类似于 CD 上的目录 (TOC), 以便快速定位数据。 DTF 使用射频内存。

6.3.10 格式过时和技术周期

6.3.10.1 不断进步和发展是数据存储的固有特性, 这意味着不可避免的 变化和不断的淘汰。内容的长期管理必须建立在硬件和介质的 不断演进和升级的基础上。虽然中央基础设施(如数据电缆或 存储库) 可能持续运行 10~20 年, 但单个磁带机和介质的寿命 比这短得多。所有主流的数据磁带格式都有开发路线图, 每 18 个月到 2 年进行升级。有时可以在任何常见系列的一代或两代 介质中确保只读访问的向后兼容性。因此, 每一代磁带机和介 质可能存在 4~6 年, 之后迁移数据必不可少。 此外, 海量存 储系统的硬件维护成本也会在系统超出预期寿命或保质期结束 时显著上升。之后, 例如可能很难获得磁带库或磁带机的新备 件。以下是预计路线图的摘要。许多格式至少与一个上一代格 式具有只读兼容性。

 

系列 第一代 第二代 第三代 第四代 第五代 第六代
Quantum SDLT SDLT220 110 GB SDLT320 160 GB SDLT600 300 GB DLT-S4 800 GB    
IBM     3592 2004 300 GB 40MB/s TS1120 2006 700 GB 104MB/s    
Sun - Storagetek   9940B 2002 200 GB 30MB/s T10000 2006 500 GB 120MB/s T10000B-2008 ITB 120MB/s    
LTO LTO-1 2001 100 GB 20MB/s LTO-2 2003 200 GB 40MB/s LTO-3 2004 400 GB 80MB/s LTO-4 2007 800 GB 120MB/s LTO-5 日期未定 (2009+) 1.6TB 180MB/s (预计) LTO-6 日期未定 (2011+) 3.2TB 270MB/s (预计)
Sony S-AIT S-AIT 2003 500 GB 30MB/s S-AIT2 2006 800 GB 45MB/s        
Sony AIT     AIT-3 2003 100 GB 12MB/s AIT-4 2005 200 GB 24MB/s    

表1 数据磁带的预计开发路线


① 这意味着一定程度的浪费和环境压力已超出了我们纯技术讨论的范围, 但实际上, 相对 拥有更节能的驱动器和机器人技术且占用较少空间的新型高密度系统, 大型老式数据磁 带库将消耗更多的聚合物, 并需要更多的石化产品。

6.3.11 自动或手动检索

6.3.11.1 对于小规模业务, 可以将数据从单个工作站备份到单个数据磁 带机上, 并手动加载磁带以存放在传统的架子上, 甚至小规模 的网络系统也可以对其存储进行手动备份(见第7 章)。同样 的存储环境指南适用于其他磁带, 尽管日益注意到尽量减少灰 尘和其他颗粒物以及污染物是有益的。对于大规模业务, 特别 是在劳动力成本较高、资本设备预算充足的国家, 一定程度的 自动化通常比纯手工系统更可取和更为经济。自动化程度取决 于任务的规模和一致性, 内容的访问类型, 以及主要资源的相 对成本。

6.3.11.2 自动加载磁带机和磁带库: 单驱动器的下一步是小型自动加载 磁带机, 通常有一个驱动器(偶尔两个) 和一行或一个转盘式 数据磁带, 它们依次被馈送以支持备份操作。自动加载磁带机 和大型磁带库的一个主要区别是已录磁带不会被备份软件记录 在中央数据库中, 然后可以启用自动检索。搜索、检索和重新 加载单个文件仍然属于人工操作。顾名思义, 所有自动加载磁 带机的功能就是允许一系列磁带被顺序读或写, 以克服单个数 据介质的容量限制, 而且在一个长的备份序列中也无须操作人 员存在, 会自动装载下一个磁带。

6.3.11.3 通过对比, 即使是最小的磁带库也被编程成一个独立的、自主 的存储系统。不同磁带上的单个文件的位置对用户是透明的, 且磁带库控制器会跟踪每个磁带上的文件地址以及库中磁带的 物理位置。如果磁带被取出或重新加载, 则子系统在初始化时 将重新扫描磁带插槽, 用来自条形码、射频标签或磁带外壳的 内存芯片的元数据更新库存。

6.3.11.4 与较小的磁带库相比, 大型磁带库有一些优点。大型磁带库可 以构建为冗余和分布式, 即可以使停机时间最小化, 并且可以 在几个类似的系统之间平衡读/ 写负载。大型磁带库也可以用作 多用途系统, 例如, 可以维护公司的正常IT 备份以及管理所有 存档的视频和音频。

6.3.11.5 磁带库系统中使用的数据磁带或卡式磁带具有一些条形码、射 频标签或其他身份识别 (ID) 系统。这些光学或电磁识别系统 有时与盒式磁带内存 (MIC) 结合使用, 以补充有关磁带身份 识别和内容的信息。某些格式具有用于条形码磁带的全球身份 识别系统, 以便一个磁带库中使用的磁带可以在另一个磁带库 系统中识别。

6.3.11.6 备份和迁移软件及时间表: 在IT 界和其他领域, 对长期数据档 案的目的和操作存在一些混淆和误解。关于长期数据档案有两 种普遍的误解。首先, 存档是将不经常使用的材料从昂贵的在 线网络磁盘存储转移到更便宜、无法访问的离线存储(从此可 能永远不会被检索) 的过程。其次, 备份是一个常规的每日和 每周的例行程序, 用于复制存储在系统中的所有内容。

6.3.11.7 关于第一个误解, 现实是一些最重要和最有价值的材料可能数 月或数年都不会使用, 但其生存必须得到明确保证。第二个误 解也是如此, 如果建立了合适的规则, 大量的材料可能不需要 每天或每周复制, 只有小比例需要更新。实际上, 尽管异地异 质复制数据的严格制度对于最大限度地减少技术故障风险并确 保从灾难中恢复至关重要, 但数字遗产材料的特殊特性需要一 些与日常IT 数据管理不同的程序。

6.3.11.8 传统的分级存储管理系统可能会进行优化, 以便定期备份所有 内容, 并将不经常使用的内容移到不可访问的位置, 但可以配 置更好的系统以适应不同规模不同访问级别的档案馆的业务规 则和实践。一个中等规模的组织机构可能会每周摄取 100 GB 的 音频数据或 1TB 的视频。简而言之, 就是确保一旦有价值的材 料被摄取就能复制, 并且常用的材料仍然可访问。

6.3.11.9 存储管理软件的一些主要任务是优化资源的使用, 管理硬件层 中的设备, 同时调整流量, 尽量减少提交给用户的延迟。分级 存储管理软件提供了将文件从在线磁盘迁移到磁带的条件选择, 例如: 比特定日期更早、大于标称的大小、位于特定子文件夹 中, 或当可用磁盘空间超出特定的限制(高和低的水印)。

6.3.11.10 通常, 在同时具备生成高分辨率文件和低分辨率访问副本的情 况下, 用于保存和广播的较大的高分辨率文件将被迁移到磁带, 以释放更昂贵的硬盘阵列空间。在维持材料的可用性和优化磁 带机和介质的使用之间需要一个平衡。如果磁带被频繁访问, 那么大量的挂载和卸载、假脱机和恢复操作将降低系统性能。 更复杂的内容管理系统有时会包含较低级别的存储管理, 因此 用户不太了解支持该系统的单个文件和组件。

6.3.12 数据磁带介质的选择和监控

6.3.12.1 与任何传统的保存系统一样, 为防止介质或系统部件万一出现 问题, 备份和冗余很重要, 而对系统关键部件的性能建立标准 并依此进行检测更加重要。诸如 SCSI - Tools 之类的软件能够对 网络上各个驱动器和设备进行较低级别的询问, 以确定介质和 硬件性能是否处于最佳水平。 LTO 磁带具有用于数据监控的接 口, 虽然这对档案系统是有利的, 但是这种功能很少被利用。 一些 HSM 系统能够定期监控存储资产的质量。如果一段时期内 磁带没有被使用, 在用户访问或读取磁带上存储的数据时, 这 些系统无须用户干预就会监控磁带的误码率。

6.3.13 成本

6.3.13.1 通常, 数据磁带存储的成本分为四个方面: 磁带介质, 每 3~5 年采购和更换原始的备份磁带介质; 磁带机, 每 1~5 年采购和 更换, 含技术支持费用; 磁带库的购买和10 年寿命期间的维 护; 软件购买、集成、开发和维护。

6.3.13.2 在手动系统中, 尽管员工的空间要求较大, 手工检索和检查的 人工成本较高, 存放费用却较低。在自动化磁带库系统中, 大 部分人力成本被硬件和软件的前期费用抵消。随着存储需求的 增长, 大型磁带库可以以模块化方式购买, 以便将费用分摊在 数年内开支。在磁带库的生命周期中, 磁带机等单个组件每 3 ~5年将被更新的技术所取代。如果存储的内容不断被访问, 那么磁带机的使用寿命可能相当短, 甚至只有一年或更短。如 果需要, 可以保存较旧的磁带介质和磁带机以备冗余。如果存 档数据没有快速增长, 则在将存档内容迁移到下一代介质或技 术的时候, 当前和下一代磁带和磁带机可以共存在磁带库中。 如果存档数据持续增长, 那么创建特定大小的磁带库可能具有 成本效益, 具备仅存储在当时技术的使用寿命期间存档的内容 量, 然后可获取较大的新磁带库, 以存储使用下一代技术存储 的内容以及将被迁移的旧内容。如果旧技术和新技术不能共存 在同一设备中, 后一种方法也是必要的。

6.3.13.3 保持至少一个不同地点或地理上分离的冗余数据备份是很好的 业务实践。通常, 为躲避自然灾害和人为灾害, 20~50 公里的 半径是常见的距离, 并且这个距离可以保证在几个小时内人工 取回数据。为了进一步降低风险, 冗余备份应存于不同批次或 来源的介质上, 甚至是不同技术的介质上。有些数据磁带由唯 一的供应商制造, 增加了单点故障的可能性。三套数据比两套 更安全, 虽然介质成本增加, 但硬件和软件成本仅略高于第 一套。

6.3.14 硬盘驱动器 (HDD) 介绍

6.3.14.1 自从 IBM 在 1973 年推出了 3340 型号的硬盘驱动器 (HDD) 以来, 硬盘驱动器已经成为计算机主要的内存和数据存储器。 由于这款硬盘驱动器具有 30MB 的固定内存和30MB 的可移动 存储, 其 30/30 架构的称谓至少在名称上与著名的来复枪类 似, 因此其昵称为“温彻斯特”, 它开创了使硬盘可操控的磁 头设计。尺寸的进一步缩小和磁头与磁盘设计的最新发展大 大增加了磁盘驱动器的可靠性, 最终发展成今天普遍应用的 稳健设计。

6.3.14.2 数据管理员的责任是维护数据, 他们认为硬盘作为一个数据项 目的唯一副本太不可靠, 如果用硬盘制作多套副本, 价格又太 昂贵, 而磁盘阵列更可靠。存在硬盘上的数据因此被复制在多 个磁带副本上以确保其长久保存下去。如本指南所述 (见 6.1.4 和7.6), 所有数据系统必须具有所保存的所有数据的多 套独立的副本。虽然专家们倾向于认为最可靠的数据系统由磁 盘阵列加磁带上的多套副本组成, 但持续降低的成本和持续提 高的可靠性使得在多个单独的硬盘上建立多套数据副本的理念 成为可能。然而, 多种介质存储的原则仍然存在, 而仅用磁盘 存储确实具有风险。

6.3.15 可靠性

6.3.15.1 由磁盘故障和磁头损坏等原因造成的数据丢失,致使大多数数 据专业人士对 HDD 存有疑虑,但厂商现在声称 HDD 年化故障 率小于 1%,其使用寿命为 40000 小时 (Plend, 2003)。高可靠 性硬盘驱动器可能具有更长的使用寿命,制造商称使用寿命为 “平均无故障时间”。虽然 HDD 都是自包含且独立密封以免其 受损,但磁盘驱动器的大多数故障都以两种截然不同的方式发 生: 要么由于延期使用导致过多磨损而损坏, 要么在驱动器的 电源打开或关闭的瞬间被损坏。困境在于是让磁盘一直处于工 作状态而增加磨损,还是随时打开和关闭而增加瞬间故障的 风险。

6.3.16 系统说明、复杂性和成本

6.3.16.1 如第2 章所述, 最近几代计算机具有足够的能力处理大型音频 文件。所有近几代的计算机都集成了足够速度和大小的硬盘, 外部的 HDD 适配器可以插入 USB、火线或SCSI 端口。系统复 杂性和运行这种系统所需的专业知识程度并不比操作台式计算 机所需要的大很多。

6.3.16.2 当需要访问的大量音频和音视频材料存储在HDD 上时, 磁盘通 常被并入磁盘阵列 (RAID) 中。RAID 提高硬盘系统的可靠性 并通过将排列的磁盘视为一个大型硬盘来提升整体访问速度。 如果磁盘发生故障, 则可以进行替换, 且该磁盘上的所有数据 可以使用阵列中其余磁盘的数据重新构建。系统容忍的故障级 别, 和从这种故障中恢复的速度是 RAID 级别的乘积。设计 RAID 不是作为数据保存工具, 而是作为在不可避免的磁盘故 障发生时能够维持正常访问的一种手段。任何RAID 的适当级 别以及控制器复制的要求取决于特定情况和数据复制的频率。 RAID 要求当磁盘的任何部分正在使用时, 阵列中的所有磁盘 都要接通电源。与所有数字数据一样, 所有包含存档资料的 RAID, 必须在其他介质上多次复制。

.

容量 磁带容量 (GB) 磁带
数量
推荐 磁带 机 的 数量 推荐
磁带
机的
数量
系统价格 (€) 磁带
价格 (€)
磁带机价格 (€) 每 GB 成本 (€)
10 TB 800 13 2 4 20480 97 7625 2.05
50 TB 800 63 4 16 56800 97 10175 1.14
100 TB 800 125 8 16 134050 97 12725 1.34
200 TB 800 250 12 16 205350 97 12725 1.03
500 TB 800 625 18 56 446938 97 15975 0.89
1000 TB 800 1250 36 88 864517 97 15975 0.86
2000 TB 800 2500 72 176 1687690 97 15975 0.84

表2 基于LTO - 4 技术的存储系统的投资成本

 

容量 硬件
维护
费用
第1 年
 (€)
软件
维护
费用
第1 年
 (€)
硬件
维护
费用
第2 年
 (€)
软件
维护
费用
第2 年
 (€)
硬件
维护
费用
第3 年 (€)
软件
维护
费用
第3 年 (€)
硬件
维护
费用
第4 年 (€)
软件
维护
费用
第4 年 (€)
硬件
维护
费用
第5 年 (€)
软件
维护
费用
第5 年 (€)
10 TB 2420 n/a 2420 n/a 2420 n/a 2.514 n/a 2514 n/a
50 TB 3454 n/a 4958 n/a 4958 n/a 4958 n/a 4958 n/a
100 TB 11808 490 13817 490 13817 490 13817 490 13817 490
200 TB 15787 582 19323 582 19323 582 19323 582 19323 582
500 TB 27380 1068 34111 1068 34111 1068 34111 1068 34111 1068
1000 TB 47542 2115 66734 2115 66734 2115 66734 2115 66734 2115
2000 TB 99272 4221 99272 4221 99272 4221 99272 4221 99272 4221

注: ①本注释涵盖表2、表3。
②价格是来自多个供应商的清单价格的平均值。客户须支付的价格通常会稍低一些。
③价格表示原始容量的价格。备份时则至少需要两倍的磁带介质。
④系统价格栏中的价格包括上述容量的磁带和驱动器成本, 但不包括任何高速存储器(HSM)
的软件或硬件成本。
⑤这些表格仅显示必须向供应商支付的投资成本和维护费用。除此之外, 电费、冷却费、机
房费、管理费等费用必须单独计算。磁带库系统在五年内的电力和制冷费用大概相当于购买价格
的10%。

表3 基于LTO - 4 技术的存储系统的年维护成本

 

容量 驱动器技术 驱动器大小 (GB) 驱动器数量 系统价格 (€) 驱动器价格 (€) 每GB 成本 (€)
5 TB SATA 500–1000 5–10 11884 1000 2.38
10 TB SATA 750–1000 10–14 19997 1000 2.00
50 TB SATA/FATA 1000 50 124334 1800 2.49
100 TB SATA/FATA 1000 100 230914 1800 2.31
200 TB SATA/FATA 1000 200 456942 1800 2.28
500 TB SATA/FATA 1000 500 1202726 1900 2.41
1000 TB SATA/FATA 1000 1000 2566513 1900 2.57
2000 TB SATA/FATA 1000 2000 4782584 1900 2.39

表4 基于HDD 的存储系统的投资成本

 

容量 硬件
维护
费用
第1 年 (€)
软件
维护
费用
第1 年 (€)
硬件
维护
费用
第2 年 (€)
软件
维护
费用
第2 年 (€)
硬件
维护
费用
第3 年(€)
软件
维护
费用
第3 年 (€)
硬件
维护
费用
第4 年(€)
软件
维护
费用
第4 年 (€)
硬件
维护
费用
第5 年 (€)
软件
维护
费用
第5 年 (€)
5 TB 826 750 826 750 826 750 1845 750 1845 750
10 TB 1206 1125 1206 1125 1206 1125 2600 1125 2600 1125
50 TB 5822 6125 5822 6125 5822 6125 12365 6125 12365 6125
100 TB 10514 8500 10514 8500 10514 8500 22391 8500 22391 8500
200 TB 21724 12750 21724 12750 21724 12750 44956 12750 44956 12750
500 TB 57061 37250 57061 37250 130394 37250 130394 37250 130394 37250
1000 TB 130203 66250 130203 66250 263537 66250 263537 66250 263537 66250
2000 TB 223778 124250 223778 124250 477121 124250 477121 124250 477121 124250

注: ①本注释涵盖表4、表5。
②价格是来自多个供应商的清单价格的平均值。客户须支付的价格通常会稍低一些。
③系统价格栏中的价格包括上述容量的硬盘驱动器的成本。
④表格中只显示必须向供应商支付的投资成本和维护费用。除此之外, 电费、冷却费、机房
费和管理等费用必须单独计算。硬盘驱动器系统在五年内的电力和制冷费用大概相当于购买价格
的30% ~40%。

表5 基于HDD 的存储系统的年维护成本

 

6.3.17 仅磁盘存储

6.3.17.1 RAID 阵列在系统的极限范围内是可扩展的, 但是所有 HDD 都 可通过简单的添加更多的驱动器无限扩展。自从 IBM 3340 HDD 问世以来, 存储容量迅速增长, 几乎呈指数级增长, 成本却在 下降。这些变化再加上可靠性的提高, 导致一些人建议 HDD 硬 盘既用于主存储系统, 又用于备份。但是, 这种做法有三个困 难。首先, 硬盘寿命是根据使用时间估算的, 即运行的小时数。 没有测试不经常使用的硬盘的寿命。其次, 将数据存储在不同 的介质上是有利的, 因为它分散了介质故障的风险。因此, 采 用这种做法(硬盘兼作系统存储和备份存储) 应该非常谨慎。 最后, 由于无法在不接通硬盘的情况下定期检测柜架上的硬盘 状态, 从而使磁盘关闭所带来的好处 (见 6.3.20) 大打折扣。 多种介质存储(如磁带和硬盘) 仍然是首选。硬盘应在集成系 统中使用。

6.3.18 硬盘存储系统

6.3.18.1 硬盘存储系统是用于最大化磁盘存储利用率并提供大容量和高 性能的集中式系统。这些系统与服务器计算机结合使用, 因此 服务器只有少量的内置硬盘存储或根本没有。这些系统通常用 于中型和大型环境中作为存档系统的存储。当然, 存档系统也 可以与多个其他计算机系统共享集中式存储系统。系统的大小 可以从 1 TB 到几 PB 不等。为使一项投资创造最佳价值, 应该 考虑到存储系统的性能特性可以根据其选择的配置而显着变 化, 必须事先仔细规划系统的实际需要, 并使用合格的专业人 员来配置存储结构和系统接口。

6.3.18.2 集中式磁盘存储系统旨在提供比独立硬盘驱动器更好的错误恢 复能力。这些系统提供了几个可选级别的 RAID 保护, 为避免 单点故障, 其组件可能是冗余的, 系统可以在本地或不同地理 位置上分布, 以保护宝贵资产免受不同类型的故障和灾难。

6.3.18.3 存储系统与其所服务的计算机之间的连接在系统性能方面发挥 重要作用。一般来说, 使用的两种方法是附网存储 (NAS) 和 存储区域网络 (SAN)。NAS 利用常规IT 网络(如以太网) 在 计算机和存储系统之间移动数据, 而SAN 使用交换光纤通道连 接。NAS 系统可以 100 Mbit/s, 1 Gbit/s 和 10 Gbit/s 的速度 工作, 而 SAN 则以 2 Gbit/s 或4 Gbit/s 的速率工作。这两项 技术都有明确的发展路线图, 预计未来的性能将会有所增长。 SAN 技术由于特有的设计带来更好的性能, 通常被选择用于更 苛刻的环境。例如, 在 SAN 环境中可以更有效地控制输入/ 输 出 (I/O) 块大小, 而网络协议往往会强制NAS 系统使用相 当小的输入/ 输出块。从经济的角度看, NAS 技术比 SAN 技术 便宜。

6.3.19 硬盘驱动器 (HDD) 寿命

6.3.19.1 如上所述, 许多市售的 HDD 预计有 40000 小时的寿命。 HDD 在典型商业用途中更换寿命为五年。随着流体或陶瓷主轴轴 承、盘的表面润滑以及在最新的台式机 HDD 上制造的专用磁头 驻停技术等的改进, HDD 的寿命可能会更长一些。然而, 没有 对未使用的 HDD 的使用寿命进行的可靠测试, 明智的做法是在 5 年内计划在这样的工作系统中更换磁盘。

6.3.20 硬盘介质监控

6.3.20.1 坏数据块增加可能表明即将发生磁盘故障。最新的磁盘出现块 错误,甚至在全新时就出现,是正常现象,而大多数的数据系 统会通过重新分配该块的地址来管理坏块。但是,如果坏块的 数量增加,则可能表示磁盘要出现故障。现在有软件可以发出 坏数据块增加的警告,并能测量指示磁盘问题的其他物理特性。

6.3.21 硬盘驱动器 (HDD) 技术

6.3.21.1 有四种主要方法能够将HDD 和其他外围设备连接到计算机: USB (通用串行总线)、 IEEE 1394 (火线)、SCSI (小型计算 机系统接口) 和 SATA/ATA (串行高级技术附件/ AT 附件)。 它们在特定情况下都具有特殊的优势。 USB 和火线是可以用于 将硬盘驱动器以及数码摄像机或 MP3 播放器连接到个人计算机 的通用总线。SCSI 和 SATA/ATA 主要用于将硬盘驱动器连接 到计算机或磁盘存储系统。

6.3.21.2 SCSI 及其后续SAS (串行连接 SCSI) 接口允许更快的写入和读 取速度, 并且便于访问比 SATA/ATA 驱动器数量更多的驱动 器。SCSI 磁盘可以在 SCSI 总线上同时接受多个命令, 并且不 会遇到像 SATA/ATA 那样的请求队列。 SATA/ATA 驱动器相 对便宜。二者在读取访问速度上大体相同; 在音频环境中, 两 个接口对数字音频工作站 (DAW) 操作的限制也无差别。 SCSI/SAS和SATA 驱动器的性能差异在使用率高的集中式硬 盘存储系统中才能体现。

6.3.21.3 光纤通道 (FC) SCSI/SAS 驱动器主要用于需求量大的企业或 业务系统, 而较便宜的 SATA 驱动器更多地用于个人市场, 但 它们也越来越多地用于企业和业务系统, 以提供更具成本效益 的存储容量, 如档案存储。在档案存储中, 到底选择 (FC) SCSI/SAS 还是 SATA 技术取决于系统的实际负载量。如果系 统用来存档访问不密集的中小数量的内容, 则基于 SATA 的解 决方案可能就够了。实际决定必须基于明确的需求以及与存储 提供商的协商。

6.3.21.4 USB 和火线连接的磁盘可以用于将内容从一个环境传输到另一 个环境, 但由于它们相当不可靠, 难以监控和易于丢失, 因此 即使定价非常有吸引力, 也不应该用于存档。

6.3.21.5 接口不能完全指示特定驱动器或存储系统的可靠性和性能, 因 此购买者应该更多了解存储系统的其他操作参数和配置参数。 事实情况似乎是更为可靠的那些驱动器都采用的是 FC SCSI/SAS 接口。但是, HDD 本身并不是永久可靠的, 因此所有音频 数据都应该在合适的磁带上备份 (见 6.3.5) (进一步讨论见 Anderson, Dykes and Riedel, 2003)。

6.3.21.6 一种新兴的存储技术可能在不久的将来具有突出的地位。闪存 形式的固态存储器正在成为移动磁盘的替代品, 而且已经成为 笔记本电脑中的HDD 的替代品。一些存储设备生产商也在其低 成本或中档存储系统中引入了闪存驱动器, 并计划在其高端系 统中引入闪存驱动器。即使闪存在存储可靠性方面还有待提升, 它仍可能会成为档案界存储需求的可行解决方案; 其每千兆字 节的价格正在变得具有竞争力, 由于电力需求少, 环保性更强, 而且没有活动的部件, 这意味着存储器的寿命会更长。如果存 储器拥有十年的使用寿命, 而非五年, 意味着档案工作者的投 资和管理成本将降低, 因为迁移的次数减少了一半。在读写性 能方面, 闪存已经与 HDD 技术相媲美。

6.3.22 分级存储管理 (HSM)

6.3.22.1 OAIS 档案存储功能将分级存储管理 (HSM) 的概念嵌入概念 模型中。在 OAIS 撰写的时候, 并没有设想到可负担的以其他 方式管理大量数据的情况。支持HSM 需求的实际问题是存储介 质的成本不同, 例如磁盘存储昂贵, 磁带存储却便宜得多。在 这种情况下, HSM 提供虚拟、单一的信息存储, 而实际上根据 使用和访问速度, 副本可以分布在多种不同类型的载体中。

6.3.22.2 然而, 硬盘的成本比磁带的成本降低的幅度大, 直到它们的价 格相等。因此, 使用 HSM 成为现实的选择。在这种情况下, 将 包含磁盘阵列上的所有数据的存储系统的全部数据同时也存储 在多个磁带上, 是一个非常实惠的提议, 对于那些高达 50 TB (每年上升) 的数字存储系统尤其如此。但是对于较小的数字 存储设备, 功能完备的 HSM 则是不必要的, 它们需要的是一个 更简单的系统来管理和维护副本位置信息、介质已使用年限和 版本, 并将存储的数据完全复制在硬盘和磁带上。

6.3.22.3 对于中型和大型数字存储系统, 所需的HSM 存储系统仍然是数 字存储系统中非常昂贵的组件之一。

6.3.23 小型系统中的文件管理软件

6.3.23.1 在整个存档内容都被复制在硬盘和磁带上的系统中, 文件管理 软件的目的是记录磁带副本的位置、状况、准确性和年龄。这 种基本的备份功能是经典 HSM 的低成本替代方案, 至少在理论 上可能对于小型系统来说更为可靠。然而, 随着大规模HSM 占 据重要市场, 其研发也得到了行业的支持。开源软件开发群体 正在开发小规模文件管理软件, 这些系统包括三个最受欢迎的 开源 NAS 应用程序: FreeNAS、Openfiler & NASLite 和马里兰高 级自动网络磁盘归档器 (AMANDA)。与所有此类开源解决方 案一样, 测试这些系统的适用性和可靠性的责任由用户承担, 并且在没有进一步开发的情况下, 本指南并不提出具体的建议。

6.3.24 验证和检索

6.3.24.1 在一些商业软件中,磁带读写错误可以在数据备份和验证过程 中自动报告。该功能通常采用循环冗余校验,即一种使用数据 校验码为传输或存储检测数据错误的技术。建议在所有档案存 储系统中都实施错误检查功能。错误检查在开源软件中难以实 现,因为该功能与特定硬件相关联。 MPTapes 公司有一个市售 的独立的 LTO 磁带存储阅读器 “Veritape”, 另外, 富士美磁公 司 (Fuji Magnetics) 最近也发布了与软件捆绑在一起的 LTO - Cassettes 芯片阅读器诊断系统。

6.3.25 完整性和校验码

6.3.25.1 校验码用于检查所存储、发送或复制的数据没有错误的计算值。 该值根据适当的算法计算, 并与数据一起传输或存储。当随后 访问数据时, 计算新的校验码并与原始校验码进行比较, 如果 匹配, 则表明没有错误。校验码算法有许多类型和版本, 并且 被推荐用于检测归档文件中的意外或故意错误的实践和标准。

6.3.25.2 加密版本是在保护数据不受有意损坏的情况下唯一一种具有可 靠信任记录的类型, 而即使是最简单的加密版本现在也不可 靠。最近显示, 有些方法可以创建无意义的位, 并计算成给定 的 MD5 校验码。这意味着外部或内部入侵者可以用无意义的数 据替换数字内容, 除非利用时打开该文件, 否则错误检查管理 系统并不会察觉到这种攻击。 MD5, 长度是 124 bit, 尽管仍然 用于传输, 但是在安全问题很关键的地方不应该使用。SHA -1 是另一种受到威胁的加密算法, 在理论上已被证明可以被规 避。SHA-1 的长度为160 bit: SHA-2 具有 224 bit、256 bit、 348 bit 和 512 bit 长度的版本, 与 SHA-1 在算法上类似。从长 远来看, 计算能力的稳步增长意味着这些校验码也会受到影响。

6.3.25.3 即使有这些影响, 校验码也是检测意外错误的有效途径, 如 果并入受信任的数字仓储, 可能足以在低风险情况下发现对 数据文件的故意损害。但是, 在存在风险的地方, 甚至在不 存在风险的地方, 保存计划中必须包括对校验码及其有效性 的监控。