深度学习人工智能 (AI) 模型可以从长达 4500 年的楔形文字片中预测缺失的单词、片段和句子。
刻有阿卡德语楔形文字的泥板是了解公元前 2500 年至公元 100 年间美索不达米亚(或多或少是当今伊拉克地区)存在的文化的关键工具。被损坏并且缺少文本的关键部分。
计算机科学家 加布里埃尔·斯坦诺夫斯基 耶路撒冷希伯来大学和来自不同部门的同事合作使用人工智能并解开这些板块的秘密,完成了缺失的楔形文字。

以楔形文字对表格进行编码
过去,研究人员已经“阅读”了旧文件(文艺复兴时期的书信或 赫库兰尼姆卷),但从不使用这种方法。
该团队使用了一个已经用 104 种不同语言训练过的深度学习 AI 模型。 其中包括一些闪族语言,如希伯来语,与阿卡德语有相似之处。 然后他们通过将 10.000 个平板电脑转录成楔形文字来训练算法。 AI 模型能够建议上下文准确的单词和短语来填补空白。 把它当作一种T9,但与美索不达米亚。
我们怎么知道这些建议是相关的? 研究人员还在平板电脑的已知部分测试了人工智能,并且那里的完成度也非常好。 人工智能已重构楔形文字中的句子 以惊人的 89% 准确率,在某些情况下甚至扩展了对文本的可能解释。
掌握语言的重要性
“这项研究的主要发现,”Stanovsky 说,“是使用其他语言确实有助于编码阿卡德语。” 事实上,无需在这 104 种不同语言上对模型进行预训练, 准确率降低了近 30 个百分点。
我相信,在接下来的几年里,它会为重要历史文件的解码释放出巨大的潜力。
参考文献: arxiv.org/abs/2109.04513