当前数字化处理工作中目录数据的录入质量问题和应对措施
保存档案的目的是为了利用。在手工管理的情况下,对档案的检索一直存在查找效率低下,查准率、查全率差的大问题。而解决的根本办法,就是进行档案的数字化,建立起档案信息数据库,利用计算机的高速度代替人工进行档案检索,实现档案检索的高效率,提高检索的查全率查准率。事实证明,数字化后的档案也基本达到了这个目的。
涪陵区档案馆馆藏档案的数字化工作起步于2006年,到2010年底,已经完成扫描页数466万页。在对数字化后的数据进行验收的过程中,我们也发现了相当多的质量问题,严重影响了档案的检索结果。这些质量问题,有的是因为录入人员业务水平低、责任心不强而产生的;有的是因为验收人员对计算机检索方式认识不足,对录入标准降低、放宽,把关不严而产生的。
一、必须认清目录数据录入质量对档案检索的重大影响
很多人,包括从事档案工作多年的人,由于对计算机技术不够熟悉、不够了解,对档案的计算机检索普遍存在着认识上的误区,认为档案只要把原文扫描了,以后查找档案就是分把钟的事情,简单得不能再简单了。
其实不然。目前进行数字化处理时所扫描出来的原文是作为图像格式存储的,限于目前经济条件,并没有对图像中所包含的文字信息进行内容识别和转换,而这些尚未识别和转换的的图像信息限于目前的技术条件,还无法直接进行检索,还不具备任何检索价值。这些扫描图像的作用,是显现于屏幕,供我们在大脑中进行文字内容识别,读出其中的信息,以减少查看原始档案的过程,节省档案的调卷时间,保护好档案的原件安全。因此,原文是否扫描和档案的检索工作本身并没有任何直接的关系。
在现阶段,要实现档案的计算机检索,所依靠的,是在数字化处理时所录入的档案目录数据的相关内容,即每份文件的责任者、文号、题名、成文时间等相关内容。在进行档案的计算机检索时,首先需要将用户的检索需求转换成相应的关键字,计算机再将这些关键字与数据库中的每条目录数据的内容进行一一匹配,如果匹配成功,则得出相应的检索结果。所以在每条目录数据中,题名是不是准确全面地揭示文件材料的内容,责任者、文号、成文时间是不是准确等等,才直接关系到档案检索的效率和准确性。这些目录数据内容的录入越准确、越全面,检索的速度就越快,准确性就越高。如果对计算机检索原理不了解,录入时对题名、文号、责任者等项目的处理敷衍了事,那么就得不到符合质量要求的目录数据,最终只能是造就了一堆垃圾数据。数字化后的档案仍然出现查找不到的现象,其最大的原因就在于此。
目前在目录数据录入中容易出现的问题
在档案目录数据的录入中,经常会有以下的问题出现:
1.“件”的确定混乱。在档案数字化处理的实际过程中,常常有两三件在内容上毫无关联的文件,在本应单独录入为几条目录数据的情况下,被录入人员有意无意确定为一件。因些,只有第一件的相关内容被录入到数据库中,而其余几件文件则被忽略,在目录数据库中无从体现,从而在检索途径上被人为掩埋,除非我们一页一页查看扫描的原文,否则永无可能被检索到。其中原因,有原始档案本身在整理时不规范,录入人员未加判断,依错而错;有录入人员在业务标准上把握不准的情况,在“件”的判断上出现偏差的情况;也有录入人员因为工资计费方式(一般是按扫描的总页数计费)的原因,而故意减少目录数据的录入量,以求更快的速度而出现的问题。
2.同一责任者名称不统一。按照规范,责任者应录入全称或通用简称,并保持统一。由于录入人员业务水平不一,或者责任心不强,有时用全称,有时用简称,简称有时也是随心所欲,同一个责任者往往有几种不同的录入法,如“涪陵地委组织部”(正确)、“涪陵地区组织部”、“涪陵组织部”、“涪地组织部”。更有甚者,还有的录入人员不管不顾文件的实际责任者,直接把全宗单位名称作为每份文件的责任者,如组织部全宗的案卷,卷内材料的责任者全部录为“XX组织部”。
3.文号录入不全。文号的录入应符合当时的实际文号格式。录入人员片面追求速度,往往不录入完整的文号,只录入文号中年度和发文顺序号两部分,对今后检索造成麻烦。对历史上联合发文时的一文多文号的,也往往只录一个,漏掉了其他的文号。
4.题名不准确。题名包含的信息量最大最多,是当前进行计算机检索时的最重要的途径。但出现错误的情况也最多。
最常见的是问题是文字录入错误。一是录入时的错别字较多。如录入人员使用五笔输入法时,常常有将“调整”录入为“高速”,“党员”录入为“赏”的情况。二是对历史上的一些不规范简化字、一些习惯性的手写体不认识不理解,而导致录入错误。如将“水银”录入为“水艮”,“农场”录入为“农坊”,“台籍”录入为“台芨”。三是对一些历史事件不了解,而导致错认错录。如将“三反”录入为“三友”,“三青团”录入为“三表团”
其次是题名揭示的内容不准确不全面。如部分文件材料照实录入为“聘用协议”、“会议通知”,没有可用的检索信息,属于垃圾数据。部分一文多人的人事任免文件材料,只照原标题录入一个人的名字,未将涉及本单位的全部人名列举。部分格式题名的文件未列明区别信息,没有检索的专指性,如人事局的年度考核结果通知,如果不自拟题名将被考核单位的名称列入题名中的话,那么几十个被考核单位的考核结果通知都是同样的题名,没有专指性。
5.成文时间标注错漏。部分错误,是录入时敲错键盘误录造成的,还有一些,是档案本身没有注明确切时间,但可考证出来而未认真考证造成的。
三、提高目录数据录入质量的方法
1.制定并逐步完善录入细则,使目录数据录入有章可循。不依规矩,不成方圆,对目录数据的录入,实际上也是档案业务标准的具体体现,因此,档案工作的各项标准和规范,就必须体现在录入工作中。然而,各项业务标准规范都有一定的概括性,不可能列举出所有的具体情况。因此,各单位也需要根据业务标准规范的要求,结合工作中的实际情况,不断地补充完善本单位的录入细则,以使今后的录入工作有章可循,有法可依。比如五六十年代的联合发文,存在一个文件多个文号的现象。在录入细则中,就应将几个文号全部录入作为录入细则的内容之一,以便今后遵循。比如文中涉及人名的应该全部列举,而人数过多,全部列举人名超过255个字符限制时,又如何来处理?都需要在实践中不断的补充完善,在录入细则中作好规定。
作好目录数据录入人员的培训工作,使业务标准得以贯彻执行。对参与数字化处理的工作人员,都必须按照录入细则的要求进行业务培训,使他们能够针对各种各样的文件材料,找到正确的责任者、正确的形成时间,找到完整的文号,拟制出准确而全面的题名。只有掌握的正确的方法,才能保证质量,加快进度。
3.将录入质量与人个收入挂钩,增强录入人员的责任心。录入质量问题中,很多问题,如文字错误,都是由于录入人员责任心不强而造成的,因此有必要对录入工作中的过高的错误率进行惩处,以增强录入人员的责任心。即在验收过程中,对录入错误超过一定比率的,应扣除一定数额或一定比例的加工费用。
4.适当提高录入人员待遇,保持一支相对稳定的队伍。数字化处理的质量,关键在于录入人员的素质。而录入人员素质的提高,需要长时间的磨炼和积累。而数字化处理的过程比较枯燥,加工人员往往又比较年轻,缺乏长久从事这项工作的耐心。长时间的在电脑前工作,也容易导致各种电脑病,如颈椎痛,肩周炎的发生。要培养一支高水平的队伍不容易,要维持下来,保持好工作的积极性更不容易,所以适当提高数字化处理人员的待遇有很大的现实意义。
5.严把数据质量自查、自验、终验三关,尽量减少错误的发生。每个数字化处理人员对自己录入的目录数据、自己扫描优化的图像要自我检查,数字化加工工作的负责人要再对本批加工的数据进行自验。自验合格后,再书面将自查自验情况和不合格的惩处承诺注明,向档案局(馆)申请终验。档案局(馆)验收人员必须对数据按照不少于5%的比率,进行随机抽查或重点抽查。抽查合格率如果低于95%,则返回修改,修改完成后,再行验收。验收过程中如出现不合格的情况,则按之前约定的不合格的惩处条件,扣除一定数额或一定比例的加工费用。如一次性通过验收,则修改部分错误后,支付全额加工费用。
总之,把握好档案数字化的目的,了解计算机检索的原理,才能认真细致的处理好目录数据的录入质量问题。档案的数字化处理工作任重而道远。如何为子孙后代留下高质量的、能被检索的数据,值得我们档案人深思。
涪陵区档案馆馆藏档案的数字化工作起步于2006年,到2010年底,已经完成扫描页数466万页。在对数字化后的数据进行验收的过程中,我们也发现了相当多的质量问题,严重影响了档案的检索结果。这些质量问题,有的是因为录入人员业务水平低、责任心不强而产生的;有的是因为验收人员对计算机检索方式认识不足,对录入标准降低、放宽,把关不严而产生的。
一、必须认清目录数据录入质量对档案检索的重大影响
很多人,包括从事档案工作多年的人,由于对计算机技术不够熟悉、不够了解,对档案的计算机检索普遍存在着认识上的误区,认为档案只要把原文扫描了,以后查找档案就是分把钟的事情,简单得不能再简单了。
其实不然。目前进行数字化处理时所扫描出来的原文是作为图像格式存储的,限于目前经济条件,并没有对图像中所包含的文字信息进行内容识别和转换,而这些尚未识别和转换的的图像信息限于目前的技术条件,还无法直接进行检索,还不具备任何检索价值。这些扫描图像的作用,是显现于屏幕,供我们在大脑中进行文字内容识别,读出其中的信息,以减少查看原始档案的过程,节省档案的调卷时间,保护好档案的原件安全。因此,原文是否扫描和档案的检索工作本身并没有任何直接的关系。
在现阶段,要实现档案的计算机检索,所依靠的,是在数字化处理时所录入的档案目录数据的相关内容,即每份文件的责任者、文号、题名、成文时间等相关内容。在进行档案的计算机检索时,首先需要将用户的检索需求转换成相应的关键字,计算机再将这些关键字与数据库中的每条目录数据的内容进行一一匹配,如果匹配成功,则得出相应的检索结果。所以在每条目录数据中,题名是不是准确全面地揭示文件材料的内容,责任者、文号、成文时间是不是准确等等,才直接关系到档案检索的效率和准确性。这些目录数据内容的录入越准确、越全面,检索的速度就越快,准确性就越高。如果对计算机检索原理不了解,录入时对题名、文号、责任者等项目的处理敷衍了事,那么就得不到符合质量要求的目录数据,最终只能是造就了一堆垃圾数据。数字化后的档案仍然出现查找不到的现象,其最大的原因就在于此。
目前在目录数据录入中容易出现的问题
在档案目录数据的录入中,经常会有以下的问题出现:
1.“件”的确定混乱。在档案数字化处理的实际过程中,常常有两三件在内容上毫无关联的文件,在本应单独录入为几条目录数据的情况下,被录入人员有意无意确定为一件。因些,只有第一件的相关内容被录入到数据库中,而其余几件文件则被忽略,在目录数据库中无从体现,从而在检索途径上被人为掩埋,除非我们一页一页查看扫描的原文,否则永无可能被检索到。其中原因,有原始档案本身在整理时不规范,录入人员未加判断,依错而错;有录入人员在业务标准上把握不准的情况,在“件”的判断上出现偏差的情况;也有录入人员因为工资计费方式(一般是按扫描的总页数计费)的原因,而故意减少目录数据的录入量,以求更快的速度而出现的问题。
2.同一责任者名称不统一。按照规范,责任者应录入全称或通用简称,并保持统一。由于录入人员业务水平不一,或者责任心不强,有时用全称,有时用简称,简称有时也是随心所欲,同一个责任者往往有几种不同的录入法,如“涪陵地委组织部”(正确)、“涪陵地区组织部”、“涪陵组织部”、“涪地组织部”。更有甚者,还有的录入人员不管不顾文件的实际责任者,直接把全宗单位名称作为每份文件的责任者,如组织部全宗的案卷,卷内材料的责任者全部录为“XX组织部”。
3.文号录入不全。文号的录入应符合当时的实际文号格式。录入人员片面追求速度,往往不录入完整的文号,只录入文号中年度和发文顺序号两部分,对今后检索造成麻烦。对历史上联合发文时的一文多文号的,也往往只录一个,漏掉了其他的文号。
4.题名不准确。题名包含的信息量最大最多,是当前进行计算机检索时的最重要的途径。但出现错误的情况也最多。
最常见的是问题是文字录入错误。一是录入时的错别字较多。如录入人员使用五笔输入法时,常常有将“调整”录入为“高速”,“党员”录入为“赏”的情况。二是对历史上的一些不规范简化字、一些习惯性的手写体不认识不理解,而导致录入错误。如将“水银”录入为“水艮”,“农场”录入为“农坊”,“台籍”录入为“台芨”。三是对一些历史事件不了解,而导致错认错录。如将“三反”录入为“三友”,“三青团”录入为“三表团”
其次是题名揭示的内容不准确不全面。如部分文件材料照实录入为“聘用协议”、“会议通知”,没有可用的检索信息,属于垃圾数据。部分一文多人的人事任免文件材料,只照原标题录入一个人的名字,未将涉及本单位的全部人名列举。部分格式题名的文件未列明区别信息,没有检索的专指性,如人事局的年度考核结果通知,如果不自拟题名将被考核单位的名称列入题名中的话,那么几十个被考核单位的考核结果通知都是同样的题名,没有专指性。
5.成文时间标注错漏。部分错误,是录入时敲错键盘误录造成的,还有一些,是档案本身没有注明确切时间,但可考证出来而未认真考证造成的。
三、提高目录数据录入质量的方法
1.制定并逐步完善录入细则,使目录数据录入有章可循。不依规矩,不成方圆,对目录数据的录入,实际上也是档案业务标准的具体体现,因此,档案工作的各项标准和规范,就必须体现在录入工作中。然而,各项业务标准规范都有一定的概括性,不可能列举出所有的具体情况。因此,各单位也需要根据业务标准规范的要求,结合工作中的实际情况,不断地补充完善本单位的录入细则,以使今后的录入工作有章可循,有法可依。比如五六十年代的联合发文,存在一个文件多个文号的现象。在录入细则中,就应将几个文号全部录入作为录入细则的内容之一,以便今后遵循。比如文中涉及人名的应该全部列举,而人数过多,全部列举人名超过255个字符限制时,又如何来处理?都需要在实践中不断的补充完善,在录入细则中作好规定。
作好目录数据录入人员的培训工作,使业务标准得以贯彻执行。对参与数字化处理的工作人员,都必须按照录入细则的要求进行业务培训,使他们能够针对各种各样的文件材料,找到正确的责任者、正确的形成时间,找到完整的文号,拟制出准确而全面的题名。只有掌握的正确的方法,才能保证质量,加快进度。
3.将录入质量与人个收入挂钩,增强录入人员的责任心。录入质量问题中,很多问题,如文字错误,都是由于录入人员责任心不强而造成的,因此有必要对录入工作中的过高的错误率进行惩处,以增强录入人员的责任心。即在验收过程中,对录入错误超过一定比率的,应扣除一定数额或一定比例的加工费用。
4.适当提高录入人员待遇,保持一支相对稳定的队伍。数字化处理的质量,关键在于录入人员的素质。而录入人员素质的提高,需要长时间的磨炼和积累。而数字化处理的过程比较枯燥,加工人员往往又比较年轻,缺乏长久从事这项工作的耐心。长时间的在电脑前工作,也容易导致各种电脑病,如颈椎痛,肩周炎的发生。要培养一支高水平的队伍不容易,要维持下来,保持好工作的积极性更不容易,所以适当提高数字化处理人员的待遇有很大的现实意义。
5.严把数据质量自查、自验、终验三关,尽量减少错误的发生。每个数字化处理人员对自己录入的目录数据、自己扫描优化的图像要自我检查,数字化加工工作的负责人要再对本批加工的数据进行自验。自验合格后,再书面将自查自验情况和不合格的惩处承诺注明,向档案局(馆)申请终验。档案局(馆)验收人员必须对数据按照不少于5%的比率,进行随机抽查或重点抽查。抽查合格率如果低于95%,则返回修改,修改完成后,再行验收。验收过程中如出现不合格的情况,则按之前约定的不合格的惩处条件,扣除一定数额或一定比例的加工费用。如一次性通过验收,则修改部分错误后,支付全额加工费用。
总之,把握好档案数字化的目的,了解计算机检索的原理,才能认真细致的处理好目录数据的录入质量问题。档案的数字化处理工作任重而道远。如何为子孙后代留下高质量的、能被检索的数据,值得我们档案人深思。