档案馆机读目录后控方法实践-国家档案馆官网

档案馆机读目录后控方法实践:国家档案馆官网 档案机读目录是以一定的格式存入计算机存放器中,可由计算机读取的档案目录数据通常将经过著录标引得到的、反应档案特征的信息如档号、题名、责任者、分类号、专题词等输入计算机,形成机读目录编制机读目录,是实现档案计算机检索的前提,其质量直接影响档案检索效果 一、档案馆机读目录现实状况及问题 现在各级档案馆、室全部已开展档案计算机检索,形成大量的档案机读目录,但质量普遍较差,严重影响检索效果据浙江省调查材料显示①,质量情况很好的档案馆差错率在12%左右,有的差错率在50%以上,总平均差错率达29%见下表 由此可见,必需对机读目录的质量进行控制现在档案馆机读目录的关键包含以下两个方面: 1.档案馆内形成的机读目录 档案馆内形成的机读目录包含:1将原有的已打印的纸质目录经过扫描输入计算机,再经过OCR技术转换的机读目录;2对照案卷按著录要求逐项著录标引制成卡片后输入计算机形成的机读目录;3是对照案卷直接在计算机上进行著录标引形成的机读目录这种机读目录存在的关键问题有: 1在著录卡片时因为工作人员笔误造成的错误 2在录入时因为误操作造成的错误。
比如:录入时多按一次回车键,造成录入字段错位 3前处理步骤遗留的问题,包含案卷多册且不连续编号造成档号中卷号重号;责任者没有写全称等 4扫描时因为原有目录不清或遇轻易混淆的字在转换时发生的错误比如:“纳入”转换成“纳人”等 5因为著录、标引等标准的改变而造成的数据前后不一致 2.接收来的电子目录 接收的电子目录关键是从机关档案室接收纸质档案时同时接收来的电子目录,存在的关键问题包含: 1形成电子目录使用的软件各不相同因为现在国家对于接收电子目录没有统一标准,因此各档案室编制的电子目录,有用EXCEL、WORD、FOXPRO、ACCESS做的表,甚至还有用WPS里CCED做的表,数据格式各不相同,这在接收进馆后全部需要进行转换 2档案室编制的目录和档案馆编制的目录著录项目不一样如:分类号等字段档案室的目录没有,部分档案室有的字段,档案馆的机读目录不需要,要进行增减如:立档单位、编制单位等 3相同字段的长度不一样接收来的电子目录即使和馆内机读目录字段相同也存在长度不一样的问题,需要和馆内的标准统一 二、后控方法的提出 鉴于现在机读目录存在问题较多,北京市档案馆提出了对机读目录进行后控的方法,就是在机读目录正式进入检索系统以前,利用多种技术手段对馆内形成的和接收的机读目录质量进行控制。
其目标是确保作为检索主要项目标档号、分类号、关键词、责任者、题名、时间等的规范和符合要求其中最主要的是确保档号的正确惟一性机读目录经过后控处理,差错率能降至最低 后控方法:一是自动控制,二是人工控制 自动控制是将依据相关标准制订的参考系统输入计算机,由计算机自动比照参考系统对档案数据进行规范它的实现一是采取现有的档案处理软件,二是利用计算机批量处理数据的优势,编制部分实用程序将部分能够用计算机处理的内容统一处理或经过命令、程序操作将著录、标引、录入过程中的问题统一查找出来进行修改以确保机读数据内容的正确经过自动控制可实现: 1.将自由词转换为专题词和分类号,实际上就是计算机自动标引现在,我国已开发出部分自动标引系统,其中有抽词标引法、题名标引法和规则标引法等档案馆可用已经有的自动标引软件,结合馆藏内容,选择适宜的专题词扩充专题词库,实现档案机读目录自动标引 2.将不一样格式转换为统一格式对于机读目录数据现在格式不统一的现实状况,编制程序由计算机自动实现不一样数据格式之间的转换 3.经过查错程序检验数据输入阶段产生的错误数据在输入阶段不可避免地会出现错误,这些问题全部能够经过编制程序查找并处理。
人工控制则是针对自动控制不能处理的问题所采取的方法比如:在自动标引进行专题分析时遗漏专题或分析错误等,就必需由有经验的专业人员来处理就现在计算机发展水平看,自动控制和人工控制相结合的半自动方法不失为目前的一个好方法 三、后控参考系统 1.指标体系 后控的主要方法是建立一套指标完备的参考系统,关键是依据档案著录规则、分类标引规则、专题标引规则、档案分类法、档案专题词表、机读目录后控标准的相关内容,并结合档案工作的实践制订出来包含①档号②分类号③题名④责任者⑤起始时间⑥终止时间⑦专题词等关键指标,通常的参考系统指标体系图所表示: 2.后控的规则: 1对数据格式的统一将WORD、EXCEL、CCED等格式的表统一转换成FOXPRO格式,并统一字段名称和字节长度 2档号由全宗号、目录号、案卷号、页号组成,不能缺乏和反复,不能有非法字符,案卷号不能断号 3分类号按档案分类法标引,不能缺乏,不能有非法字母和非法分隔符 4题名必需能反应档案内容,不能缺乏,不能有空格和非法字符 5责任者按著录标准要用全称或标准的简称,用要求的分隔符,不能有非法字符 6起始时间和终止时间全部要符合档案内容反应事件所发生年代,不能有不合理时间和非法字符。
7专题词不能缺乏,且必需为专题词表中的规范词,专题词之间用要求的分隔符,不能有非法字符 8馆名称、馆代号等字段内容要统一添加 四、档案机读目录后控的实践 北京档案馆建立了上述后控指标参考系统和后控规则,采取自动控制和人工控制结合方法,自动控制用以发觉问题,人工控制用以处理问题 1.用档案管理软件处理通常性问题 1常见档号问题的处理用软件对档号经过排序、查重、查缺,查出档号中案卷号缺号、重号条目对于漏著、漏录的,补充齐全;对于确实为缺卷的,补上档号,注明原因;对于因为档案多册卷造成档号重号的,在册号中标明;对于卷号确有反复的案卷返回前整理步骤 2常见分类号等问题的处理用软件对分类号、责任者、题名、关键词等字段经过排序,查出缺乏的条目,依据文件内容重新著录标引,确保检索渠道的通畅 2.经过数据库命令进行后控 1对数据进行统一替换、增删比如:将分类号、关键词中的分隔符统一替换;统一增加馆名称、馆代号字段的内容 2按标准对数据库结构进行修改比如:将时间项拆分成起始时间和终止时间两项 3处理部分字段因为前处理步骤造成的内容不全问题比如:对于责任者不全的,依据时期的不一样补齐全称。
4处理著录或录入过程中出现的问题比如:终止时间小于起始时间、日期大于31等 5用数据库命令查找数据中的错误,并进行修改比如:查找时间项中不合理时间、题名中的空格等 6进行数据格式的统一包含字段名、字节长度的统一,经过另存或数据导入导出等方法,将数据统一转换成表格式,并将多个已转换的数据表进行合并笮 注释: ①浙江省档案数据库建设调查组,档案信息化建设数据质量是关键―――浙江省综合档案馆档案信息数据库建设调查汇报,档案学研究20023 作者单位:北京市档案馆100078 。