长期以来,受历史档案“片纸只字不得销毁”思想影响,在民国档案接收进馆过程中,采取“有文必收,有档定管”的态度,永久保管。这样,不免将内容极具一般的事务性文件、零散性文件、重复性文件与体现民国时期机关主要职能的业务性文件交织在一起,这种“鱼龙混杂,玉石不分”的馆藏现象,造成了“馆藏的虚肿,内容的庞杂”,影响着馆藏档案的优化管理。在当前档案数字化工作中哪些内容优先数字化,哪些全宗优先数字化,哪些全宗暂缓数字化等,这些问题都很难明确。极端的做法是尽其所能通过键盘、采集卡及扫描设备等将其内容全部数字化③。目前,二史馆共收藏有940多个全宗,计180多万卷档案,排架长度达5万余米,绕南京城墙1.5周④,如果将这些档案全部数字化,需耗时20年。
3.检索问题
档案信息检索是馆藏档案数字化基础工作的重中之重。数字化的馆藏档案,不仅应该是经过系统化整理的,而且是建立了能与全文数字化信息钩链检索的案卷级或文件级机读目录。因此,必须处理好馆藏档案实体整理中的遗留问题,完善案卷级目录的主题揭示和加强文件级目录的编制以及目录数据库的建设。
三、档案数字化对象的界定
民国档案数量浩繁,而资金和人力资源相对有限,档案数字化不可能一步到位。因此,我们应该从实际出发,采取优先原则进行档案数字化⑤。
一是馆藏珍贵档案应优先数字化。各档案馆都有其最为珍贵的“镇馆之宝”,从保护人类历史遗产和抢救的角度出发,这些特藏应该成为数字化的首选对象。
二是濒危、经过鉴定确认具有重要保存和使用价值的档案应优先数字化。此举有利于加快抢救与妥善保存这些反映民国时期历史进程、社会变迁等重大历史事件的濒危档案信息。
三是具有馆藏特色的档案应优先数字化。选择本馆独有、特有的资源进行档案数字化,可以突出自己的特色,实现优势互补和共享。
四是利用率高、需求大、开放的档案应优先数字化。这样不仅可以发挥馆藏档案的社会效益和经济效益,而且有利于对档案原件的保护。
二史馆在长期的馆藏建设中形成了自己的核心馆藏,它们形成时间早、影响范围广、使用价值大、利用频率高。早在上世纪六十年代,老一代档案工作者为适应当时形势的需要,从实体馆藏150万卷,700多个全宗的基础上,精心选出74000多卷重要档案。虽然这些档案不能代表馆藏中极具重要价值档案的全部,却是二史馆馆藏最为核心档案的一部分,成为馆藏档案中利用最频繁和最有亮点的档案。我们应该在尊重前人劳动成果基础上,将这些档案优先进行数字化运作。
四、档案数字化建设
1.档案目录数据库
由于馆藏档案历史跨度大,数量多,早期档案整理编目工作较粗,目录数据库质量不高。例如案卷过大过厚,目录笼统不准确,不能反映卷内内容或只反映部分内容等,造成大量有价值的信息没有被揭示出来,降低了档案利用的效益。2009年4月我馆正式启动馆藏档案数字化扫描工作,先期将教育部全宗和内政部全宗进行整理编目,共计36931条目录,比原来增加了6000多条,解决了部分案卷过厚、标题不准确、档案著录项缺失(如形成时间、责任者不详、事由不清)等问题,使整理后案卷标题规范,主题清晰,能够全面反映卷内文件内容。然后将这些优质目录和规范数据输入计算机档案管理系统,形成的新案卷目录数据库质量大为提高。同时,也为今后数字化全文扫描准确挂接,为档案利用者快速和准确查询提供了重要保证。
2.纸质档案全文数字化
通过扫描仪、数码相机对档案原文进行光学扫描,以图片格式或光学字符进入计算机,形成图像文件。之后可用OCR识别软件,将扫描后的图像文件转换成文本文件。
扫描系统参数的选择和确定对扫描数字影像质量有着较大影响,其中扫描分辨率直接关系到扫描文件的清晰度和还原效果。我们在选择分辨率时应根据实际需要综合考虑,包括扫描文件的可阅读性、存储空间、输出打印质量等。
根据档案纸质的不同,采用不同的分辨率。否则,有的幅面清晰度好;有的幅面则清晰度差。对大幅面的表册和地图等档案资料进行分块扫描,形成的多幅图像,要即时合并为一个完整的图像,避免遗忘,以保证档案资料数字化图像的整体性。
3.多媒体档案数字化