语言,可以为人们了解一种文化,学习这种文化看待世界的方式。每种文化都“有话要说”,当一种语言消失时,对于整个人类来说都是一个悲剧。
但是,如果有一种方法可以自动恢复这些丢失的语言呢?
麻省理工学院计算机科学与人工智能实验室的研究人员已经找到了一种方法,可以利用机器学习帮助我们破译那些已经失传的语言。
这项研究的论文合著者罗佳明说:“我们的工作是自动破译以不完整或不完整的文字编写的丢失的语言。显然,对于一些古代语言来说,分词器并没有被发明出来,或者没有得到一致的应用。我们工作的意义在于,我们的工作是首次尝试在如此具有挑战性的情况下,利用机器学习自动进行这种破译”
这意味着,我们终于能够理解那些丢失语言的书面版本背后的语法、词汇和句法。
研究小组特别关注的是那些文字很少或没有空格的现象,这种现象称为 scriptio continua。
通常,为了破解未知语言的代码,至少知道另一种相关的语言是有帮助的。例如,多年前专家们就能够破译哥特语,一种已经灭绝的东方日耳曼语族。这要归功于它与原始德语,古北欧语和古英语等已知语言的关联。受到这个概念的启发,研究小组沿着类似的思路开发了他们的破译算法。
罗佳明解释说:“我们的机器学习模型的工作原理是尽可能多地匹配古语言和已知语言之间的词对,同时处理分词中的不确定性。什么是真正的匹配对,取决于他们在角色层面上的声音对应,以及这些对应有多规则。”
“例如,如果你发现许多对具有一致的变化(如 p 到 b),那么这些对是真正匹配的。因为历史语言学告诉我们,语言的改变是有规律和一致的。如果两种语言真正相关(如西班牙语和意大利语),那么你会看到这些模式一次又一次地出现。”
除了能够融合这些语言倾向之外,该模型还通过将语言声音“嵌入”到虚构的多维空间中来处理未分段文本带来的不确定性。
通过使用这种框架,该模型能够检测相关语言进化中的模式,从而允许它分割和隔离未破译语言中的单词,并将它们映射到已知的相关语言中的单词。
正如研究小组在论文中所概述的那样,已知破译语言和未破译语言之间的这种联系可以作为一种基准,一种“基本真理” ,用来帮助确定这种以人工智能为动力的破译模型是否真的有效。
在这项研究中,研究小组利用哥特语和乌加里特语之间已知的关系,来测试他们的模型在未知语言,如伊比利亚语上的表现。
通过这个过程,研究小组使用他们的机器学习模型来证实伊比利亚语事实上很可能与巴斯克语没有关系,还有其他的可能性,如日耳曼语、土耳其语和乌拉尔语系语,这个结论得到了最近其他发现的支持。
罗佳明说:“我们的工作可能对语言学家快速分析两种语言之间的关系有帮助,尤其是当其中一种语言是未知的时候。它绝不像人类分析那样充分和彻底,但它要快得多,需要的人力资源也少得多。”
尽管该模型在评估两种语言之间的相关性方面似乎很好,但是该团队现在的目标是将模型扩展到其当前功能之外,从而可以处理多种可能不相关的语言。
目前,研究团队希望他们的模型可以帮助实现自动化,并且能够从通常是冗长乏味的过程中去除一些猜测。
论文链接:http://people.csail.mit.edu/j_luo/assets/publications/DecipherUnsegmented.pdf?utm_source=thenewstack&utm_medium=website&utm_campaign=platform