新闻中心 > 要闻

将自然语言处理应用于档案开放审核的思考

作者:张禧琳

来源:中国档案报

2023-12-06 星期三

    档案开放利用不仅是公共服务的题中之义,也是档案价值得以实现的关键环节。新修订的档案法注重推动档案开放与利用,《“十四五”全国档案事业发展规划》提出“深入推进档案利用体系建设,充分实现档案对国家和社会的价值”的要求,《国家档案馆档案开放办法》于2022年印发实施,均体现了党和国家对档案开放工作的高度重视。档案开放审核作为开放利用的关键环节,具有重要意义。

    《2022年度全国档案主管部门和档案馆基本情况摘要》显示,全国各级综合档案馆馆藏档案117148.7万卷、件,开放20976.6万卷、件。从统计数据看,我国待鉴定开放的档案数量非常庞大。而人工进行档案开放审核存在诸多困难和问题,如劳动强度大、耗时费力、持续性差等。因此,使用技术手段辅助是较为理想的路径,运用自然语言处理实现智能化鉴定分类、开放审核是大势所趋。

    一、自然语言处理的发展历程及主要技术

    自然语言处理(Natural Language Processing,NLP)是以计算机为工具对人类特有的书面形式和口头形式的自然语言信息进行各种类型处理和加工的技术,是计算机、人工智能领域的重要学科方向。自然语言处理的发展可以追溯到100多年前,大致可以分为3个阶段。第一阶段是1956年之前的萌芽时期,第二阶段是20世纪八九十年代的高速发展时期,第三阶段则是2000年至今的繁荣时期。

    其主要技术包括朴素贝叶斯算法(Naive Bayes)、支持向量机(Support Vector Machines)、分类决策树(Decision Tree)、卷积神经网络(Convolutional Neural Networks)。

    朴素贝叶斯算法逻辑简单,易于实现,在档案文本数据的开放审核工作中具有一定的适用性。支持向量机是一种二类分类模型,具有较高的精准度,在应对维度问题时较有成效,对档案文本的开放审核工作有着指导意义。分类决策树模型是一种对实例进行分类的树形结构,从本质上讲,决策树学习是从训练数据集中归纳分类规则的过程。这一模型对缺失值不敏感,能够处理不相关特征数据,在档案文本的开放审核工作中同样具有指导价值。卷积神经网络主要处理与网格结构相近的形式的数据,是典型的深度学习模型,近年来,被广泛应用于分类研究,能够行之有效地解决文本分类问题。对档案开放审核工作而言,深度学习技术和卷积神经网络模型将拥有更为广阔的应用前景。

    二、应用于档案开放审核工作的思路和展望

    1.从档案科技项目中寻找思路

    近年来,智能化开放审核方式在档案行业得到越来越多的应用和推广,如,江西省档案馆承担的“基于结构化和文本数据的辅助开放鉴定模型”、江苏省档案馆承担的“基于语义分析的档案馆划控开放智能鉴定的研究”、福建省档案馆承担的“基于数字档案的人工智能档案开放审核系统实现研究”。这3项国家档案局科技项目都关注智能辅助开放审核。

    江西省档案馆以馆藏新中国成立后文书档案为研究对象,综合运用关键词匹配技术、数据挖掘技术构建了辅助档案开放鉴定模型,在省档案馆大数据分析应用系统、数字档案集成管理系统中进行了应用。江苏省档案馆研发了用于档案审核开放工作的语义知识库,利用语义分析技术构建语义审核模型,升级改进了档案开放审核系统。福建省档案馆设计训练了深度神经网络辅助开放审核算法模型,编制了档案开放审核关键词表,提出了档案开放审核工作流程,进一步提升了档案开放审核工作效率。这些成果是自然语言处理在档案开放审核工作中的具体实践,更是智能化开放审核方式应用于档案行业最切实的体现,为今后工作提供了较好的思路和方法。

    2.从技术发展历程中获得启发

    纵观自然语言处理由兴起逐步走向鼎盛的发展历程,反映的是不断尝试和进步、不断发展和成熟的过程。作为新兴研究方向,发展道路始终充满着曲折与挑战,但各种方法和模型的提出又提供了源源不断的解决方案。随着技术的日益发展,自然语言处理在档案开放审核工作中的应用势必越来越成熟和完善,持续探索深耕必然促使新思路、新方法的诞生与形成。

    3.以“人工智能+人工”方式应对弊端

    智能化开放审核也存在一些弊端,主要表现为两个方面。一方面,技术和模型本身尚存在缺陷和隐患。每种模型有其自身优势,也必然存在缺点和短板,效果的好坏只是相对而言。另一方面,档案开放利用意义重大,即使机器和模型达到了极高的准确率,仍不能将被其判断为“可开放”的档案直接公之于众。

    当前来看,“人工智能+人工”的开放审核方式是一种较好的解决方案。智能化开放审核在短时间内得出大量鉴定结果,开放前再由人工进行审核校对,既能节省时间、精力,又能消除机器判断的错误,确保档案安全万无一失。同时,要不断摸索探究、迭代完善技术和模型,努力应对缺陷、补齐短板。

    (作者系国家档案局档案科学技术研究所工作人员)

    原载于《中国档案报》2023年12月4日 总第4068期 第三版

 
 
责任编辑:张雪
 
版权所有,未经许可,不得转载。