深度学习人工智能 (AI) 模型可以从长达 4500 年的楔形文字片中预测缺失的单词、片段和句子。
刻有阿卡德语楔形文字的泥板是了解公元前 2500 年至公元 100 年间美索不达米亚(大致为现代伊拉克地区)文化的关键工具。考虑到年代,其中许多泥板是文本的关键部分已损坏和丢失。计算机科学家 加布里埃尔·斯坦诺夫斯基 来自耶路撒冷希伯来大学的研究人员和来自不同部门的同事合作,利用人工智能解开了这些桌子的秘密,完成了缺失的楔形文字。
什么是楔形文字
楔形文字是古代美索不达米亚使用的书写系统。它被认为是世界上最古老的书写形式,已经使用了 3.000 多年。楔形文字由刻在湿泥板上的小楔形符号组成。
以楔形文字对表格进行编码
过去,研究人员已经“阅读”了旧文件(文艺复兴时期的书信或 赫库兰尼姆卷),但绝不会以这种方式处理苏美尔文明的著作。
该团队使用的深度学习 AI 模型已经接受过 104 种不同语言的训练。其中包括一些闪族语言,例如希伯来语,它与阿卡德语有相似之处。然后,他们通过转录 10.000 个楔形文字板来训练算法。人工智能模型能够建议上下文准确的单词和短语来填补空白。 把它当作一种T9,但与美索不达米亚。
我们怎么知道这些建议是相关的? 研究人员还在平板电脑的已知部分测试了人工智能,并且那里的完成度也非常好。 人工智能已重构楔形文字中的句子 以惊人的 89% 准确率,在某些情况下甚至扩展了对文本的可能解释。
掌握语言的重要性
“这项研究的主要发现,”斯坦诺夫斯基说,“其他语言的使用确实有助于阿卡德语的编纂。”事实上,如果没有针对这 104 种不同语言对模型进行预训练, 楔形文字板的阅读准确度降低了近 30 个百分点。
我相信,它是一种工具,在未来几年内,它将释放出破译重要历史文件的巨大潜力。
参考文献: arxiv.org/abs/2109.04513