古代铭文作为历史文化的重要载体,承载着丰富的社会、政治、宗教和生活信息。尤其在罗马帝国时期,铭文遍布于帝国的官方纪念碑、日常用品以及各种公共场所,从政治涂鸦、情诗悼文,到商业合约、生日邀请和魔法咒语,铭文为现代历史学家提供了窥探古代生活多样性的宝贵资料。然而,铭文大多残缺不全、风化严重,甚至遭遇人为破坏,令它们的恢复、准确断代和地域归属成为极富挑战性的任务。传统上,历史学家依靠自身专业知识及有限的资源,花费大量时间辨识和寻找相似文本,逐步拼凑其历史全貌。随着人工智能的迅猛发展,谷歌深度学习团队携手多所知名学府联合开发了Aeneas,这一首创的多模态生成式神经网络模型,不仅极大提升了古代铭文的解读效率,也为历史研究带来了前所未有的新视角。Aeneas的命名灵感源自希腊罗马神话中的游侠英雄兼建国者,象征着历经坎坷却终达新生的历史联系。
它的核心功能之一是“平行文本检索”,即通过将每段铭文转化为独特的“历史指纹”,比对大量拉丁铭文库中内容、语言特征、时间和地点因素,从而快速查找出文本间的深层关联。这种基于嵌入向量(embeddings)技术的匹配方法,让历史学家以秒计的速度获得类似铭文,并据此做出更为准确的解释与归属判断。Aeneas独特的多模态输入能力,结合了文字和图像的双重信息,首次实现了基于铭文文本和视觉特征的精确地域归属,覆盖62个罗马古省,准确率达72%。这一点对于历史学家来说具有极大价值,因为铭文的图像形态往往蕴含丰富的书写风格和雕刻工艺信息,是断定其来源地的关键线索。此外,Aeneas突破了传统修复方法的瓶颈,支持修复文本中未知长度的缺口,这极大增强了对严重破损铭文的利用价值。通过训练其变压器架构借助大规模“拉丁铭文数据集”LED(Latin Epigraphic Dataset),它拥有超过17.6万条已校对铭文的丰富语料库,这些数据来源于欧洲多家权威铭文学数据库的整合和清洗,确保了训练数据的可靠性和全面性。
Aeneas不但能够恢复缺损文本,还能对铭文给出精准的断代预测,误差仅在13年左右范围内,远超之前通用语言模型。更令人惊艳的是,它对铭文年代的判定采用概率分布方式,从而反映历史学界长期以来的争议,比如罗马帝国《奥古斯都事迹碑》的断代问题,模型同时给出了两种可能的日期区间,且兼顾了文本中的语言风格和历史语境标志,如官方称号和提及的纪念碑,从而为学者提供更为量化且可解释的推断依据。这不仅是技术上的突破,更代表考古学和历史学研究方法的一次变革,促进了学术讨论的科学化、系统化。为了进一步评估Aeneas在实际研究中的表现,开发团队联合23名专门从事铭文研究的历史学家,开展了大规模的协作测试。测试结果显示,历史学家在结合Aeneas提供的平行文本和预测信息后,无论是铭文修复、地域归属还是断代任务,其准确率和研究效率均显著提升。不少参与者表示,Aeneas不仅帮助他们发现此前忽略的文本相似点,更增强了他们迎接复杂挑战时的信心和视野。
这种人机协作正以崭新的方式推动历史研究进入智能时代。值得一提的是,Aeneas的设计理念注重与现有研究流程的无缝整合,为用户提供可解释的建议而非替代传统学术判断,从而搭建了专家知识与机器学习互补的桥梁。团队还发布了全功能的互动平台,开放免费供研究者、学生和博物馆专业人士使用,同时开源代码和数据集以促进科研创新。此前,团队曾开发过针对古希腊铭文的Ithaca系统,现已升级为基于Aeneas架构,以实现更强大的语境化和修复能力。Aeneas不仅代表技术突破,也助力学术环境中AI素养的普及。合作方设计了结合技术技能与历史思维的教学大纲,对接欧盟数字公民技能框架、联合国教科文组织的AI能力框架以及经合组织的AI素养标准,为未来教育创新奠定基础。
展望未来,开发团队计划进一步拓展Aeneas的语言和材质适应性,支持纸莎草文献、古币铭刻等多种历史载体的解读,持续深化与各学科专家的合作。综上所述,Aeneas不仅是人工智能应用于人文科学的成功典范,更重新定义了历史学家与古代文本对话的方式。它通过强大的多模态学习能力和开放的协作平台,为我们连接古代与现代搭建了新的桥梁,也为理解人类文明的多维面貌注入了智能引擎。未来,借助Aeneas及其衍生技术,历史研究将更加精准、全面且富有洞见,助我们解锁迟滞千年的文化密码,重塑过去的辉煌与真相。