古代铭文作为历史的直接载体,承载了人类文明宝贵的信息。通过对铭文的解读,历史学家能够揭示古代社会的语言、文化、政治乃至日常生活。而铭文鉴定涉及的修复、地理和时间归属等关键任务,因其文本残缺、年代久远且含有大量缩写符号,历来是考古及历史学领域的难点。过去,学者们多依赖经验和人工比对平行文本的方法,工作耗时且依赖专业积累,效果有限。随着计算机技术和机器学习的进步,特别是生成神经网络的发展,为古代铭文研究开辟了全新的路径。生成神经网络能够基于已有数据预测缺失文本的可能内容,提供更丰富的历史语境支持,从而大幅提升鉴定的准确性与效率。
2019年以来,一系列针对古希腊、古文字甚至楔形文字的机器学习研究已取得显著成果,但专注于丰富且多样的拉丁铭文的系统仍相对缺乏。面对这一空白,谷歌DeepMind联合多所高校与研究机构共同推出了名为Aeneas的生成神经网络模型,专门用于处理拉丁铭文。Aeneas的独特之处在于其多模态输入,融合了文本和图像信息,使其能够考虑铭文的物理形态及其书写风格,从而补充纯文本分析的不足。此外,Aeneas能够对缺失长度不确定的文本内容进行修复预测,超越以往模型只能修复已知长度缺口的限制。这种能力对于铭文普遍存在的不规则磨损极为关键。Aeneas模型架构以Transformer为核心,结合相对位置的旋转嵌入技术,显著增强了对文本顺序和结构的捕捉能力。
图像部分采用轻量级的卷积神经网络提取视觉特征,并与文本特征相结合,在地理归属任务上显著提升准确率。为了扩大训练数据量,研究团队整合了Epigraphic Database Roma(EDR)、Epigraphic Database Heidelberg(EDH)和Epigraphik-Datenbank Clauss-Slaby ETL(EDCS_ETL)等三个权威拉丁铭文数据库,构建了包含约17万条铭文的拉丁铭文数据集(Latin Epigraphic Dataset,LED),覆盖公元前七世纪至公元八世纪的广泛时空背景。值得一提的是,尽管只有约5%的铭文配有对应图像,Aeneas依然能够有效利用这些视觉信息,在地理定位任务中达到72%的准确率。为测试Aeneas在实际研究中的应用价值,团队邀请了23位来自不同资历的历史学家参与三阶段评估。他们首先独立完成文本修复、地理和年代归属三项任务;随后获得模型推荐的历史平行文本辅助决策;最后结合模型直接给出的文本修复及归属预测。结果显示,获得Aeneas辅助的历史学家在文本修复的字符错误率显著下降,地理定位准确率和年代预测误差均有明显改善。
他们认为生成的平行文本极大提升了信心,节省了大量人工检索时间,更开放了研究思路。例如,在研究著名的“奥古斯都事迹”(Res Gestae Divi Augusti)铭文时,Aeneas不仅准确捕捉了文本的语言特征和时代烙印,还推荐了与其内容和风格相关性极高的其他铭文,帮助学者深化理解当时的政治语境和文化传播。模型的注意力机制还揭示了哪些文本和图像元素是决策的关键,如特殊正字法和具体历史人物名称,为传统文本批评提供了有力的量化支持。在另一个案例分析中,Aeneas成功关联了两块约翰古京(Mainz)出土的军人奉献祭坛铭文,利用文本与图像的结合捕捉了相似的公式及图像细节,指明了二者间可能的直接影响关系,体现了该模型超越简单字符串匹配的语义洞察能力。除了学术研究,Aeneas还被设计为可供教育场景使用。与比利时根特大学及当地中学合作开发的课程,使中学师生得以通过互动体验了解铭文解读和AI技术,培养数字素养与跨学科思维。
通过公开平台,更多研究者能够尝试利用Aeneas进行铭文分析,推动数字人文学科的发展。尽管如此,Aeneas的应用也面临一定挑战。首先,铭文本身材料和保存状况影响数据质量,训练集的不均衡覆盖导致模型在数据稀缺区域表现欠佳。其次,铭文编辑历史中的主观性和推测性会被模型部分继承,需谨慎对待自动生成的修复结果,确保人工审核。最后,目前图像信息的利用尚有限,未来需借助更高质量、多样化的视觉资源提升模型的空间推断能力。未来研究方向包括将Aeneas集成进更大规模的对话式语言模型,支持历史学者通过自然语言交互查询和调试模型推断结果,推动智能辅助考古写作和教学;完善不确定性量化机制,更细致地刻画历史归属的模糊边界;以及扩大模型至其他古代语言和书写媒体,如希腊铭文、古埃及碑文、羊皮纸文献等,实现跨文化古文献智能分析的统一平台。
总的来说,Aeneas代表了古籍文献研究迈向人工智能辅助新时代的里程碑。它不仅能够重构缺失文本,精准定位铭文来源和年代,更通过提出与文本相关的历史背景平行线索,极大地丰富了研究的历史语境。通过紧密结合人类专家的专业判断,Aeneas推动了古代文本研究的效率和深度,让更多被时光湮没的细节得以重现,为理解古代文明提供了强大助力。随着技术成熟与数据积累,未来生成神经网络有望成为连接人类智慧与历史记忆的桥梁,在数字人文领域孕育更多宝贵成果。