第 7 章① 小规模数字存储系统的解决方案


① 本章章节编号有误, 未作修改, 理由同第6 章。———译者注

7.1 概述

7. 1. 1. 1 小规模数字存储系统的建立可以满足馆藏量少且经常性预算有限 的档案馆的需求。到目前为止, 只有大型的、经费相对充足的音 频档案机构能够进行馆藏大规模数字化, 并使用包括硬盘和数据 磁带在内的数字海量存储系统来存储档案。这是一种大型和昂贵 的专用音频和视听存储系统。近年来许多国家的音频档案馆和大 型图书馆, 与大学和高等教育部门联手发起和支持数字存档开放 标准的制订和源码软件的开发。现在, 这些企业系统已经成为各 种形式数字存档的支柱和模板。音频档案存储也通过使用这些系 统并向其中输入档案学科专业知识而获益匪浅。

7. 1. 1. 2 在源代码开放的同时, 市场上出现了其他低成本的软件解决方 案。数据磁带的成本正在降低, 硬盘驱动器 (HDD) 的成本也 以更大的幅度下降, 因而可以采用比具有内在风险的可刻录 CD 或 DVD 等单一目标格式载体更专业的数字存档方式。

7. 1. 1. 3 本章描述了如何建立和管理符合 OAIS 要求的小规模数字仓储。第 6 章以及第 3 章、第4 章, 均含有与本章相关的内容。

7.2 小规模数字存档方法

7. 2. 1  资金和技术知识

7. 2. 1. 1 即使建立一个低成本的数字保存系统, 也需要少量的技术知识和 一些经常性资金来源使其可持续发展。不管系统简单或健全, 都 必须进行管理和维护, 并且到一定时候还需要更换, 否则有丢失 存储内容的风险。

7. 2. 1. 2 数字存储既是一个技术问题也是一个经济问题。可持续发展需要 有可靠的资金来源, 尽管数额可能不高, 但要足够确保数字内容 的可持续性得到不断支持以及存储库、技术和系统得到长期的维 护。许多收藏机构都是在偶然的资助的基础上建立了这些数字藏 品, 它们往往没有持续的资金支持。因此需要根据各类内容、访 问和可持续性的具体要求, 建立一个可持续性数字材料开发成本 核算模式(Bradley, 2004)。

7. 2. 1. 3 系统及其硬件和软件部分需要技术知识和专用资金来维护和管 理, 这是毋庸置疑和无法避免的。任何关于建造和管理数字音频 档案的提案都应该制定一个策略, 其中包括持续的维护和更换所 需的经费以及专业技术损失的风险与解决办法。

7. 2. 2  替代策略

7. 2. 2. 1 如果没有足够的方法来管理在上述章节中描述的风险, 档案馆还可 以寻求合作伙伴来管理存储的风险, 继续进行藏品的保护和数字化。 档案馆可以选择通过多种方式分散这些风险, 包括建立地方合作伙 伴关系, 使内容被分散到一系列相关的档案馆, 与资金稳定良好的 档案馆建立关系, 采用商业供应商的存储服务(见6.1.6)。

7. 2. 2. 2 为了使各种解决方案更加高效和利益最大化, 合作伙伴之间要达 成协议, 明确可用于交换的数据和内容以及交换的形式。在合作 之初就应先拟定协议。关于数据内容包互换的协议应充分考虑档 案继续发挥档案作用所必需的所有相关信息, 包括档案格式的音 频数据、技术元数据、描述元数据、结构元数据、权利元数据以 及为记录来源和演变史而创建的元数据。所有元数据应以标准格 式打包, 从而可用于数据丢失后的档案重建, 或在必要的情况下 担负起内容管理的作用。

7. 2. 2. 3 现在存在并使用的生成这种档案的工具, 例如, 基于图书馆并被 广泛使用的元数据编码和传输标准(METS) 是可行的。无论使 用哪种策略, 关于形式的协议对策略的成功至关重要。无论是否 用于支持远程内容复制或支持档案馆间的联合, 标准形式和交换 协议是最有效的保护策略, 能够分散在数字音频档案生命周期中 由于自然或人为灾难或在一个关键时刻因缺乏资源所导致的失败 风险。

7.3 系统的描述

7.3.1.1 6.1.4 节论述了开放档案信息系统 (OAIS) 参考模型 (ISO 14721: 2003) 中定义的功能类别的需求。同样的问题也适用于 大型和小型馆藏机构, 因为该框架对于开发具有可互操作内容 交换的模块化存储系统至关重要。以下关于小规模系统的部分 采用了OAIS 参考模型的主要功能组件, 以协助分析可用软件并 为必要的开发提出建议。它们包括采集、访问、数据管理、保 存计划和档案存储。

7.3.1.2 所描述的系统由具有某种形式管理内容的存储库软件组成, 至少 包含少量的元数据集以及硬件, 并提供了一些关于手动管理数据 完整性的建议。硬件部分大致概述了可实施小规模存储系统的两 种情况: 一个操作者将内容数字化到单一存储设备上, 以及多个 操作者需要访问存储设备的情况。任何一种系统均符合本指南中 提及的所有其他组件, 包括适当的模数转换器、足够的声卡、数 字音频工作站(DAW) 和适当的重播设备。

7.3.1.3 以下描述的可以支持小规模藏品的系统和软件, 是假定一个机构 能完成所有的任务。重要的是要认识到下面描述的方法不需要由 一个机构独立完成, 可以找到合作伙伴和可能支持所描述部分的 或全部任务的商业服务提供者。同样重要的是我们要认识到, 这 些任务要形成形式完整的保存和归档文件包, 无论是在本地或分 散都必须由专人负责管理。

7.3.2  存储库软件

7.3.2.1 一个设计良好的存储库软件支持 OAIS 中定义的多个功能。商业 软件和开源软件都有商业提供商。商业软件的优势是提供商会维 护系统工作, 然而, 这些商业系统具有持续的费用, 并且可能将 用户锁定到难以脱离的专有系统中。开源软件的主要优点是免 费, 开发人员坚持开放标准和框架, 这将允许在未来的升级中提 取内容。它的缺点是尽管开源社区是有帮助的, 但维护系统仍然 是用户的责任。但是也还是有可能找到商业供应商来提供支持开 源解决方案的服务的。

7.3.2.2 大多数存储库软件系统支持访问, 管理, 数据管理和摄取的一部 分工作。存储软件通常不支持撰写保护规划和档案存储, 前者是 特定的技术或格式, 后者取决于硬件。它们将在以下部分被单独 讨论。

7.3.2.3 以下简要描述了两种类型的开源软件, 这些软件仍在不断地发 展, 以下提出的要求和意见应该与软件提供商取得的最新进展进 行对照。描述的两个软件分别为 DSpace 和 FEDORA。

7.3.2.4 DSpace 的存储平台是高等教育和研究领域中一个非常流行和广 泛采用的存储库, 尽管它在博物馆和文化遗产领域中的使用还很 有限, 但它也在逐步增长。 DSpace 普遍应用的原因之一是安装 和维护相对容易, 并且具有可以在系统架构中集成数据管理和访 问功能的现成的用户界面。 DSpace 有一个强大的国际开发人员 社区, 可以不断为 DSpace 提供支持和增加新的功能。

7.3.2.5 DSpace 的优势之一是所集成的功能集, 使机构用户能够快速建 立存储库, 然后开始向藏品中添加新条目。然而, 这个优势也是 其主要弱点之一, 因为 DSpace 已经发展成为一个单片软件应用 程序, 有着复杂的代码库, 这为一些大型机构用户带来了潜在的 扩展和容量上的限制。但对大多数中小型收藏品没有任何问题, 对于任何数字音频收藏来说, 可能也不是问题。 DSpace 目前使 用基于都柏林核心图书馆应用程序配置文件工作组 (LAP) 的都 柏林核心元数据方案的合格版本。

7.3.2.6 灵活可扩展数字对象和存储库体系结构 (FEDORA) 是越来越受 欢迎的存储库系统, 它被设计为基础软件架构, 可以在其上构建 广泛的存储库服务, 包括保存服务。与快速应用 DSpace 相比, FEDORA 应用速度较慢, 因为它缺少专门的用户界面和开箱即用 的访问服务。FEDORA 有一些基于网络的前端的商业和开放源代 码提供商。

7.3.2.7 FEDORA 的主要优势是它的灵活和可扩展的架构。机构采用者的 经验表明, FEDORA 可以扩展以应付大型收藏, 还具有足够的灵 活性来存储多种类型的数字项目及其复杂的关系。 FEDORA 可以 添加的功能几乎没有限制, 同时仍然可以与其他软件应用程序和 系统进行交互操作。它可以配置为支持几乎任何一个通过 METS 摄取功能的元数据配置文件。 FEDORA 的主要缺点是其核心开发 需要高端的软件工程专家, 并且不容易安装和实施“开箱即用” (Bradley, Lei 和 Blackall, 2007)。

7.3.2.8 现在已经开发了将内容从 DSpace 迁移到 FEDORA 的工具, 反之 亦然, 这在理论上抵消了未来的任何兼容性问题, 并支持共享和 其他工作流程。(http://www.apsr.edu.au/currentprojects/index.htm)

7.4 基本元数据

7.4.1.1  第3 章概述了集合文档和管理的要求。如上所述, 元数据对于 数字音频对象的生命周期的各个方面至关重要, 严格注意描述 收藏的所有方面是其保存过程中更重要的一个步骤。所有技 术、流程、出处和描述方面的详细元数据记录是保存过程的重 要组成部分。但是, 人们认识到, 保存音频收集材料通常有技 术上的必要性, 而且这可能在元数据管理系统或政策制定之前 就已经存在。最基本的建议就是首先要收集管理文件所必需的 数据, 或者那些不捕获会面临丢失风险的数据。

7.4.1.1.1 唯一标识符: 应该是结构化的、有意义的和人性 化的以及独特的。一个有意义的标识符也可用于关联以下对 象, 如主文件或保存文件和分发副本, 元数据记录, 系列, 等 等。其中复杂的系统通过元数据进行管理。

7.4.1.1.2 说明: 声音序列的描述。使用少量的文字对音频 文件的内容进行简单的描述。

7.4.1.1.3 技术参数: 格式、采样率、比特率、文件大小。 尽管这些信息可以稍后获取, 但将其作为记录中一个明确的部 分, 可以实现对藏品的管理及制订保存计划。

7.4.1.1.4 编码历史: 在 BWF 中, 记录了一些描述原始项目的离 散信息以及正在归档的数字文件的创建过程和技术(见3.1.4)。

7.4.1.1.5 进程错误: 传输系统可以收集描述传输过程中故 障的所有错误数据(如 CD 或 DAT 传输中的不可校正错误)。

7.4.1.2  唯一标识符、描述和技术数据中描述的信息都可以记录在都柏 林核心记录或 BWF 头文件中。在 BWF 头文件的 BeXT 块或相 关的 XML 编码文档中可以记录编码历史和过程错误。日期, 甚至迁移时间有必要的话都应记录在 BWF 标题中, 日期甚至 进入存储库的时间有必要的话应记录在存储库中的元数据管理 中。在某些情况下, 与大部分记录的组件有关的时间戳信息是 强制性的。通常建议每个事件或数字对象都包含时间和日期 信息。

7.5 保存计划

7. 5. 1. 1 如上所述, 保护计划是即使在计算存储和访问环境过时的情况 下也能确保数字音频对象保持长期可访问的规划和准备。对于 仅需保存自己的数字音频对象的小规模藏品馆来说,保存计划 是一项相对简单的任务。通过明确数字存储库中的原始和保存 副本之间的关系,上述捕获的元数据会记录有关保存的决策。 技术信息有助于规划。选择 BWF 作为保留格式, 可以确保在 需要进行任何格式迁移之前有尽可能长的时间。只有藏品经理 和馆长才能通过与 IASA 等协会的联系,了解数字归档领域发 生的变化。

7.6 档案存储

7.6.1.1  从技术上讲, 档案存储系统位于存储库下方, 包括一系列子进 程, 如存储介质选择, 存档信息包 (AIP) 传输到存储系统, 数据安全性和有效性、备份、数据恢复以及将 AIP 复制到新介 质中。

7.6.1.2  档案存储的基本原则可概括如下。

7.6.1.2.1 应该有多个副本。系统应支持同一项目的多个副本。

7.6.1.2.2 副本应远离主系统或原系统, 且彼此远离。副本 之间的物理距离越大, 在发生灾难时越安全。

7.6.1.2.3 应该有不同类型介质的副本。如果所有副本都在单 一类型的载体(例如硬盘) 上, 那么单一的机械故障破坏所有 副本的风险将是巨大的。可通过使用不同类型的载体来分散风 险。IT 专业人员通常使用数据磁带作为第二(后续) 副本。

7.6.1.3  数据存储系统的主要成本不是硬件, 而是分级存储管理 (HSM) 系统。档案存储的 OASIS 功能将 HSM 的概念嵌入概念模型中。 当时写 OASIS 时, 并没有设想到大量的数据会以其他方式进行 经济实惠的管理。实际上支持 HSM 需求的存储介质的成本不 同, 例如磁盘存储昂贵, 磁带存储则便宜得多。在这种情况下, HSM 提供了虚拟的单一信息存储, 而在现实中根据使用和访问 速度, 副本可以分布在多种不同的载体类型中。

7.6.1.4  然而, 光盘的成本以比磁带的成本更快的速度下降, 直到价格 相近。因此, HSM 的使用成为一种可行的选择。在这种情况 下, 包含硬盘阵列上的所有数据的存储系统, 所有数据也存储 在多个磁带上, 特别是对于中小型数字音频系统来说这是一个 非常实惠的提议。对于这种类型的系统, 全功能的  HSM 是不 必要的, 它只需要一个更简单的系统, 用于管理和维护复制位 置信息、媒体年代和版本 (Bradley, Lei 和Blackall, 2007)。

7.7 实用的硬件配置

7.7.1.1  以下信息描述了如何实现一个实用的系统。如上所述, 假设所 有的音频存档数据将被存储在硬盘驱动器上, 并且所有音频档 案数据也将被镜像在诸如 LTO 的数据磁带上。

7.7.2   硬盘驱动器

7.7.2.1  磁盘上用于数据存储的一种常见且经济实惠的方法是链接到安 装在 RAID 阵列中的一组 HDD (硬盘驱动器) (见 6.3.14)。 RAID 1 仅仅是镜像的两个驱动器。在不同的物理硬件上保存 两份数据备份; 如果一个磁盘发生故障, 则在另一个驱动器上还可 以使用。更高级的 RAID 阵列(2 ~5) 更大地实现了复杂的数据冗 余和奇偶校验系统, 确保了数据的完整性。较高级别的 RAID 阵列 与 RAID 1 或者说镜像具有相同的安全级别, 但存储空间大大减少。 例如, 与 RAID 1 的 50% 相比, RAID 5 可能具有25% 的存储损耗 (或由于实施方式而更少)。复杂的阵列已得到广泛使用。

7.7.3  磁带备份

7.7.3.1 数字系统的单个组件是不可靠的, 需要通过每个阶段的多个冗余 副本来实现系统的可靠性。存储链中最后最重要的组件是数据磁 带。最近以来, 由于这个原因, LTO 已经得到广泛应用(见 6.3.12), 然而根据具体情况, 其他数据磁带格式也可能适用。

7.7.3.2 磁盘存储上的所有数据应复制在合适的存储磁带上。必须生产至 少两套数据磁带, 以便物理存储在不同的地方。尽管在数据恢复 中很少会需要第二套磁带, 但是许多已建立的存档都制作了三套 副本, 其中两套可以保留在系统附近以方便访问, 而第三套远程 异地存储以防止物理损坏。应该使用不同的产品制造单独的数据 磁带组, 且这些产品是同一时间批量购买的相当数量的相同批次 产品, 这已经成为惯例。这样, 当某批产品出现故障时, 会使得 质量控制和救援措施变得更加容易实施。如果系统包含多个存储 设备, 适当的卷管理软件将有助于备份和检索。

7.7.3.3 错误检查在开源和低科技解决方案中难以实现, 因为该功能与特 定硬件相连。尽管如此, 下面描述了一种技术含量不高的错误测 试的可能替代方法。数据管理软件有一个目录(附带打印机)。 硬盘(在RAID 中) 包含一整套数据。所有数据都复制到相同的 磁带副本上。至少要有两套副本。当数据被复制到磁带上时, 唯 一的标识符被打印到附在磁带上的标签(人类可读) 上。相同 的标识符可以记录在磁带的标题上。数据管理系统可以被脚本化 以提示用户找到并插入系统所标识的磁带。系统将验证磁带与硬 盘的内容, 而不是检查磁带是否有错误。硬盘可以检查自己的数 据内容的真实性, 并且知道自身的任何缺陷。如果磁带的验证失 败, 则系统可以从硬盘生成新的磁带。假设20TB 的存储空间, 系统将每天验证两个磁带, 每个磁带及其副本可以每年验证三 次。如果磁盘故障需要数据磁带来替换, 则会有两个在过去四个 月内已经检查过的磁带可供使用。磁带和硬盘同时失败的风险非 常低。

7.7.4  单(双) 操作存储系统

7.7.4.1 最简单的档案存储系统是将仅包含音频数据的单独的RAID 阵列 附加到主 DAW (数字音频工作站) 中。这种配置只适用于数字 化过程中只有一名操作者的机构。这种方法的成功依赖于一个结 构良好的数字化计划和专用的磁盘阵列, 以便连续执行工作, 而 不会出现重大中断。这将确保在达到填充目标介质的数据量时, 连接到DAW 的 HDD 将不断复制到磁带。

7.7.4.2 如果两个操作者和工作站完成数字化任务, 则需要提供对共享驱 动器或驱动器的访问。通过将其中一台计算机定义为服务器, 并 配置以便管理驱动器, 实现单一的线路共享功能, 则可以实现这 种资源的共享。这种方法相对容易实现, 并允许两个操作者之间 的共享, 尽管它需要一些程序性协议来避免冲突。数据的逻辑组 织和严格的命名程序是小规模手动存储系统的必要条件。

7.7.4.3 如果建立的是一个本节描述的大小的系统。那么与更大的档案机 构建立合作伙伴关系或者与存储服务提供商签订合同将更为有 效。尽管如此, 上述方法依然可行。

7.7.5  多个操作存储系统

7.7.5.1 对于任何数量大于2 的连接, 都应实施联网的数据存储和备份系 统。这样的网络系统允许根据数据管理系统设置的规则来访问多 个用户。小规模网络相对普遍, 具有适当的知识水平, 方便实 惠, 易于实施。可以通过企业级附加存储设备实现合理的存储 量。存储技术和产品可分为三大类: 直连式存储 (DAS)、附网 存储 (NAS) 和存储区域网络 (SAN)。 NAS 比 DAS 具有更好的 性能和可扩展性, 并且在配置上比SAN 更便宜和更简单。NAS 技术从成本效益的角度来看, 是正在讨论的大小的系统中最适合 的可扩展技术。

7.7.5.2 与较昂贵的设备相比, 大多数低成本的NAS 设备带宽减少, 导 致访问时间较慢, 或者允许的同时访问可用性数量较少。对于 较小的收藏机构, 这不是主要问题, 因为同时访问的需求仍然 很低, 尤其是还可以通过使用保存母本的MP3 格式的衍生产品 进行访问。

7.7.5.3 典型的小规模网络存储系统可以包括连接到 NAS 设备的服务器 级台式计算机。 NAS 可以在 RAID 阵列中安装多个硬盘。平均低 成本的NAS 将占用 0.5~20TB 的磁盘存储空间(注意 RAID 比 原始磁盘大小所指示的存储量少)。数字音频工作站 (DAW) 通 过以太网交换机或类似设备访问 NAS, 如果配置正确, 则具有将 存储设备与办公室局域网 (LAN) 分离的效果, 并提高存储设 施的安全性。 HDD 将被备份到数据磁带上。

7.8 风险

7.8.1.1 自动存储系统可以配置为不断复制和更新数据, 丢弃已变得不可 靠的数据磁带。大型数字海量存储系统由资源丰富的机构专业设 计和运行, 可以负担并保证数据安全的所有必要措施。通过手动 数据备份和恢复系统,与自行设计和自我管理的手动和半自动数 字化系统相关的数据丢失的危险性不容小觑。人们需要定期检查 数据磁带, 确保归档音频数据保持有效性和可访问性。众所周知 大多数研究和文化机构资金不足,因此这一情况尤为严重。

7.8.1.2 尽管这样的系统设计似乎包含了很高的冗余度, 但是必须记住, 数字组件和载体可能会在任何时刻失败而没有任何警告。因此, 必须在数字化过程的任何阶段进行存储, 线性归档文件存储最少 两个副本。任何缺陷都将不可避免地导致少量或大量数据的减 少, 但如果已经制定了适当的策略, 这就不再是致命的缺陷, 因 为冗余副本依然是可用的。考虑到迁移过程的时间, 更不用说旧 材料的不可避免的损失, 必须尽力避免由于不一致的安全架构或 具体操作中粗心大意的行为而需要将材料重新数字化。

7.8.2  系统的复杂性

7.8.2.1 数据存储系统一旦实施和安装, 操作和维护就变得相对容易。然 而, 在实施的初始阶段, 以及任何后续问题或升级时, 强烈建议 由专业的IT 支持来减少设置不当的风险。

7.8.3  合作与备份

7.8.3.1 正如已经讨论的那样,与具备数据备份能力的机构就建立可信数 字档案实践开展合作是主要的风险管理手段。创建和接受这种有 组织的信息包的存储库网络将是一个最有效的保存策略, 可分散 由自然灾害或人为灾难或在数字对象生命周期的关键时刻因缺少 资源带来的失败的风险。

7.8.4  成本与扩展

7.8.4.1 添加上述小规模系统可以加强存储和管理能力。可以使用可处理 多个数据磁带的相对较小的磁带驱动器, 较大规模的机器人系统 可以使系统具有可扩展性。如果硬盘成本持续下降, 替换和扩展 磁盘阵列的成本也还可以承受。

7.8.4.2 商业供应商和开源提供商之间的合作关系意味着存储库软件的复 杂性可以与商业服务提供商的安全性相结合。例如, DSpace 和 FEDORA 都发布了一个与商业存储解决方案公司合作的开源 系统。

7.8.4.3 与购买单个 CD 刻录机相比, 建立小型数据存储系统的成本可能 看起来相对较高, 但是对于存储超过几百小时音频资料每比特进 行比较, 对归档的所有要求进行成本计算时, 相对差异会大大降 低。此外,正确管理的数据存储设备是一个更可靠的系统, 在必 要时可以将音频数据传输到另一个存储解决方案中。