新闻中心 > 要闻

人工智能技术应用愈发广泛

作者:白路浩 姚 静

来源:中国档案报

2023-04-07 星期五

新闻速递 

法国启动Socface项目将人工智能应用于档案领域

    去年,法国国家档案馆与巴黎经济学院合作发起Socface项目。这是一项规模空前的将人工智能应用于档案领域的研究项目。该项目由法国国立人口研究所(INED)和Teklia公司牵头,旨在通过法国1836年至1936年共计20次人口普查形成的档案资料,研究法国经济、社会、人口等领域100年间的演变。

    借助人工智能,项目团队能够实现人口普查档案手写字符的自动识别和索引编制。这些数据将于2025年在法国国家档案馆门户网站上提供开放访问。

    该项目的实施有助于互联网用户以前所未有的规模开展家谱研究,并为法国劳动力市场变化、移民因果关系探究等提供宝贵的新资料。

机器学习帮助美国多州简化档案管理

    近年来,美国多州积极利用机器学习简化档案管理。俄勒冈州档案馆运用机器学习工具对接收的档案进行识别和分类,以便留存。伊利诺伊州档案馆于2020年应用机器学习工具处理州长办公室高级官员的530万封电子邮件,通过审查大约3万个文档,预测近60%的邮件不需要存档,只有不到2%的邮件有需要编辑的敏感信息。自动化工具也为佛蒙特州档案和文件管理局带来了益处,该局与数据隐私和治理软件提供商进行了为期6个月的试点项目,对州人力资源局5TB非结构化数据进行分析,并按类型或保存时间对数据进行分类。

西班牙运用人工智能技术发现著名剧作家未知手稿

    近期,西班牙国家图书馆在应用人工智能技术转录馆藏档案中的匿名历史作品时,发现了隐藏的瑰宝——由该国最伟大的剧作家之一洛佩·德·维加创作的此前不为人知的剧本。

    来自奥地利维也纳大学的研究人员使用人工智能转录了1300件匿名手稿和书籍,并试图通过将每件作品与不同作家使用词汇进行匹配的方式来确定匿名作品的作者。研究人员发现,其中一份手稿使用的词汇与洛佩用的单词非常接近,并明显区别于其他350名作家。此后,专家们利用传统的文献学研究资源证实了这一发现。

 

新闻快评

    进入数智时代,原生电子档案和数字化生成的档案数量不断增加,为档案馆带来新的机遇和挑战。一方面,档案数量的增加为大规模查询利用提供了资源基础;另一方面,档案数据的积压冲击着档案馆的数据处理能力。在此背景下,应用人工智能自动化技术助力档案工作创新发展的实践愈发广泛多样。

    我国支持并鼓励人工智能技术在档案工作中的探索应用:新修订的档案法明确,国家鼓励和支持档案科学研究和技术创新,并要求采用先进技术,实现档案管理的现代化;《“十四五”全国档案事业发展规划》提出“积极探索知识管理、人工智能、数字人文等技术在档案信息深层加工和利用中的应用”“加强大数据、人工智能等新一代信息技术在数字档案馆(室)建设中的应用”等要求。实践中,各地档案部门进行了积极探索。如,福建省档案馆以人工智能赋能档案开放审核,提升开放审核的工作效率;河南省档案馆利用大数据、人工智能等实现对中福公司档案史料的资源汇聚、知识管理和可视化呈现;上海市浦东新区档案局运用人工智能和区块链技术解决在线政务服务形成的电子文件归档问题,实现办结即归档……可见,加强人工智能的研究与应用,进一步提高工作效率,创新利用服务方式,推动档案工作业务创新,已成为我国档案部门的自觉选择。

    结合国内外实践,笔者认为人工智能应用于档案工作实践具有3个主要特点。

    一是从高效出发。面对大规模的档案数据,难以单纯依靠人力进行有效处理。法国启动Socface项目自动化处理其1836年至1936年大规模人口普查数据;美国多州借助机器学习应对档案数据鉴定的挑战;西班牙应用人工智能进行匿名手稿和书籍的转录,其出发点均是为了节省人力物力、推动档案工作高效开展。但应当注意的是,如果只考虑理想化的技术应用而忽略现实客观条件,则可能会影响档案工作的效益。美国俄勒冈州档案馆在发现应用机器学习工具会严重超出经费预算后,转而采用高级数据分析工具来简化档案的鉴定审核。

    二是逐步深入应用。新技术需要不断优化才能走向成熟,人工智能同样需要经过反复试验才能最终落地。法国Socface项目作为大规模应用人工智能的尝试,预计花费近4年时间取得预期成果;美国多州通过进行项目试点,评估机器学习工具的效果,得到肯定性认识后才加以推进;西班牙也是在研究者尝试的基础上才利用人工智能发现了著名剧作家的戏剧手稿。可见,各国都是在逐步尝试的基础上推动人工智能走向深入应用。

    三是借助智力支持。档案部门受体制、经费和人才等因素限制,难以单独依靠自身力量开展人工智能的应用,而完全外包给第三方公司则可能存在预算过高、档案失泄密风险等。因此,与研究机构合作,借助其智力支持,不失为档案部门应用人工智能的有效途径。法国国家档案馆与巴黎经济学院合作启动Socface项目、西班牙图书馆与奥地利维也纳大学合作开展手稿转录,都是合作开展人工智能应用的有益尝试。这一做法既为研究机构提供了实践资源和平台,也有效促进了档案机构馆藏档案的开发和挖掘,使参与双方实现了共赢。

    如何进一步利用人工智能推动档案工作创新发展?笔者认为,应从以下3个方面加以深化和拓展。

    一是要积极探索人工智能应用场景。档案工作数字转型中需处理大规模的档案数据,且需要做好档案数据的鉴定、分类和安全保存。在此情况下,档案部门应以提高档案工作效能为出发点,积极探索人工智能的应用场景,做好巨量档案数据的收集、保管和利用,推动实现档案的自动识别、智能开放审核和高效脱敏处理等。同时,档案部门也应立足自身实际,在馆藏基础条件和预算允许的情况下,选择合适的人工智能技术,实现效率与效益的平衡统一。

    二是要主动开展人工智能试点实践项目。科学研究成果需要通过试点实验的方式验证与推进。建议在保障档案数据安全的情况下,选用已开放的档案数据进行循环验证,以做好对人工智能处理效果的评估,从而促进人工智能的迭代升级和落实应用。档案部门还应在已有成果的基础上积极开展新的人工智能应用项目,不断推进实践的深度和广度。

    三是要深入推动学术研究融合业务实践。实践是理论创新的源泉,档案工作实践是档案学术研究创新的重要推动力。在人工智能的研究与应用中,业务实践需求为学术研究提供方向和突破口,而学术成果又可以反过来促进人工智能在业务实践中的应用。因此,强化档案部门与研究机构的合作交流,推动学术研究与业务实践深度融合,既能在满足双方共同需求的前提下研究与开发档案行业自身的人工智能,推动档案学术研究与业务实践的创新发展,又能促进科技成果的高效转化,使人工智能在档案实践中得到深入应用。

    原载于《中国档案报》2023年4月3日 总第3965期 第三版

 
 
责任编辑:张雪
 
版权所有,未经许可,不得转载。