千年古文,AI到底怎么“解读”?这背后藏着怎样的技术突破?
古人用歌词描绘文明传承,「当古文明只剩下难解的语言,传说就成了永垂不朽的诗篇。」如今考古学家面对古代碑文不再束手无策,DeepMind推出的Aeneas工具让解读残缺文本变得触手可及。这项技术突破不仅改变了历史研究方式,更让文物修复工作效率提升数倍。
Aeneas原本是古希腊神话中的流浪英雄,如今它化身成为连接古今的桥梁。这项诞生于7月24日Nature主刊的多模态生成式神经网络,为历史学者提供了全新的文本分析工具。当考古学家在欧洲发现刻有古代文字的铭文时,面对残缺不全、被风化或故意破坏的文字,传统方法往往难以确定文本出处和年代。
罗马世界文字无处不在,从帝国纪念碑到日常用品,铭文记录了政治涂鸦、爱情诗篇、墓志铭、商业交易等各类信息。这些文字为现代历史研究提供了宝贵资料,但也增加了考古工作的难度。过去学者需要依赖自身专业知识检索数据库,才能识别相似文本。而Aeneas的出现,让这项工作变得简单高效。
想象考古学家在萨丁岛发现一块青铜军事命令铭文,上面刻着皇帝Trajan授予战船水手的指令。这块铭文残缺不全,文字模糊。传统方法需要耗费大量时间比对相似文本,而Aeneas能在几秒钟内完成这项工作。它通过分析拉丁铭文集合,快速找到相似文本并确定上下文,让考古学家不再为文本检索困扰。
Aeneas的突破性在于其多模态分析能力。它不仅能处理文本信息,还能分析铭文图像,实现跨模态推理。相比之前推出的Ithaca工具,Aeneas能修复长度未知的缺失段落。当铭文缺失最多十个字符时,准确率可达73%,缺失长度未知时也有58%的修复成功率。这种灵活性让Aeneas成为处理严重损坏材料的通用工具。
这项技术不仅适用于铭文,还能扩展到莎草纸、硬币等古代文字载体。中国考古学家甚至可以利用Aeneas解读西夏文、契丹文等失传文字。这种跨语言适应能力让工具更具普适性,为不同文明的历史研究提供支持。
Aeneas的运作原理基于深度学习技术。DeepMind团队构建了包含古希腊罗马铭文文本和图像的庞大数据集,通过transformer模型处理碑文输入。模型能检索相似文本并按相关性排序,为每块铭文生成历史指纹。这种编码方式将文本内容、语言特征、时间地点等信息整合成独特标识,实现精准匹配。
以古罗马皇帝奥古斯都的《功业记》为例,这块铭文因包含夸张描述和虚假地理标志,学界对其年代存在争议。Aeneas通过分析拼写、词汇线索和语言学特征,生成两个可能的年代分布。模型预测结果显示,铭文可能出现在公元前10-1年或公元10-20年之间,这种概率性结论反映了学术界的分歧。
这种预测方式为历史研究提供了新视角。Aeneas不仅能给出具体日期,还能展示不同可能性的分布情况,让学者从定量角度分析历史争议。这种基于语言特征和上下文数据的概率估计,比传统定性分析更科学严谨。
近年来AI技术在考古领域的应用不断拓展,从复原无名老兵面部到构建数字虚拟替身,技术革新正在改变历史研究方式。复旦大学开设的「AI考古」课程,以及SCUT-DLVCLab推出的通古大模型,都显示出AI在古籍研究中的潜力。面对海量古籍古碑,Aeneas这样的工具将成为考古学家不可或缺的助手。
这项技术的出现,标志着历史研究进入新阶段。它不仅提升了研究效率,更重要的是让学者能从更多维度理解古代文明。当AI遇见历史,我们看到的不仅是技术的胜利,更是人类对文明传承的执着追求。