三千年前的古文字被AI破译,MIT和谷歌开发失传语言的机器翻译系统

  • 时间:
  • 浏览:1
  • 来源:大发5分3D_大发5分3D投注平台_大发5分3D娱乐平台

1886年,英国考古学家亚瑟·伊万斯偶然间发现了一块刻印着未知语言的石头。得知这块石头来源于地中海的克里特岛后,伊万斯立马动转过身往此处以搜寻更多证据。在那里,他马上就发现了其他笔迹累似 的石碑,那先 石碑能追溯到公元前150年左右,那先 刻字也就成为目前发现的最早的书写形式之一。伊万斯表示,这一线形形式是从早期艺术中粗糙的线条画演变而来,在语言史上占有重要地位。

伊万斯等人已经 证实,石碑上的刻字是一种生活不同的文字系统。稍古老的一种生活称为A类线形文字,可需要追溯到公元前150年至150年,此时克里特岛还处于青铜时代的米诺文明阶段。时间上更近其他的文字系统称为B类线形文字,公元前150年后才再次出现,此时的克里特岛正被希腊大陆的迈锡尼人统治着。

其他年来,伊万斯等人老要试图翻译那先 古老的文字,但都无疾而终。

这一大问提直到1953年,一有好好多个 叫华迈克尔·文特里斯的业余语言学家成功翻译B类线形文字之前 ,才得到补救。

一有好好多个 假设

文特里斯的成功建立在一有好好多个 决定性突破上。第一,他假设B类线形文字中重复再次出现的词语是克里特岛的地名——这在其后被证明是正确的。第二,他假设那先 刻字是古希腊语的早期形式——这让你不要可否 立即翻译出B类线形文字的其他每项。在翻译过程中,文特里斯表示,古希腊语的书面表达形式比之前 预想的需要早好多个世纪。

文特里斯的工作成果是一项巨大的成就。但像A类线形文字那我的更为古老的文字系统,到今天为止仍然是语言学上一有好好多个 亟需补救的大问提。

通过机器学习绘制特定语言的联结

很难想象,近年来机器翻译的最新进展对此有所帮助。

短短几年内,注释数据库和让机器从中学习的技术让语言学习处于了革命性变化,这使得机器翻译变得如此 普遍。尽管翻译质量有待提高,但这也提供了思考语言的一有好好多个 全新角度。

来自麻省理工学院的罗家明(音译)和雷吉纳·巴尔齐莱,以及来自加州山景城谷歌人工智能实验室的曹源(音译),由我门都都 组成的团队研发出了不要可否 翻译失传语言的机器学习系统,已经 使其翻译B类线形文字——第一次完全自动翻译——证明了系统可行性。

我门都都 所利用的方式与标准机器翻译技术有着显著区别。首先需要知道,不管哪种语言,机器翻译的关键可否 于认识到文字间联结的累似 性。已经 整个过程是从绘制特定语言的联结结束了了了英语 ,这需要庞大的文本数据库,机器在这一文本数据库中查验每个字符与其他字符在多大频率上联结在一齐。这一表现非常独特,它在多重参数空间上定义了这一词语。实际上,这一词语可需要视为空间内一有好好多个 向量,这一向量在机器对任何语言的翻译结果中都起到重要的约束作用。

那先 向量遵循着简单的数学规则,举例而言,国王(king)-男性(man)+一个女人(woman)=王后(queen)。其他其他,语句可需要认为是由一系列向量排列形成的一根绳子 绳子 跨越空间的轨迹。

完全对应地翻译

机器翻译的关键洞见在于,不同语言中的词语在每个人的参数空间内处于着相同位置。这使得一种生活语言不要可否 完全对应地被翻译成另一种生活语言。在这一意义上,翻译语句就变成寻找那先 跨越空间的累似 轨迹的过程,机器甚至需要“知道”语句的具体含义。

这一过程需要依赖大数据集。但几年前,德国的一有好好多个 研究者团队利用小型数据库协助翻译缺少大型文本数据库的稀有语言,其中的窍门在于找到一种生活除数据库之外不要可否 约束机器的方式。

利用语言进化的约束

罗家明团队已经 进一步展示了机器是如可翻译一门失传语言的,我门都都 使用的约束与语言随时间的变化相关。任何语言可否 以一种生活方式变化的,比如,亲属语言中的符号以累似 的分布再次出现,相关词语有相同顺序的字符,等等。有了那先 规则的约束,已经 已知一种生活古老的语言形式,如此 翻译就会轻松其他。

罗家明团队利用这项技术测试了一种生活失传语言,B类线形文字和乌加里特语。语言学家已经 知道,古希腊语的早期形式是由B类线形文字编码得到,而在1929年发现的乌加里特语则是希伯来语的早期形式。

利用那先 信息和语言进化的约束,罗家明团队研发的机器不要可否 以相当高的准确度完成上述一种生活语言的翻译。“我门都都 不要可否 正确地将67.3%的B类线形文字中的同源词翻译成对应的希腊语”,也许,“据我门都都 所知,本次实验是最早尝试自动翻译B类线形文字的。”而出色的工作成果将机器翻译提高到新的水平。但这也引发了关于其它失传语言的大问提——尤其是从未被翻译过的语言,如A类线形文字。

在这篇文章中,A类线形文字的缺席显而易见,罗家明团队甚至如此 提及A类线形文字,但和所有语言学家一样,它肯定在我门都都 心中挥之不去。不过可需要选择的是,在A类线形文字不要可否 被机器准确翻译之前 ,我门都都 还需要其他重要的突破。举个例子,如此 知道A类线形文字编码了哪种语言,将它翻译成古希腊语的尝试都失败了。已经 我想知道祖语言,新技术也起不了作用。

已经 基于机器的方式处于一有好好多个 明显的优势,机器可需要快速而不知疲倦地对每项语言进行测试。已经 罗家明团队或许可需要用一种生活粗暴的方式攻克A类线形文字的翻译难关——尝试将它翻译成机器已经 掌握的每项语言。已经 最终成功,那一定是一项伟大的成就,一项足以另迈克尔·文特里斯赞叹不已的成就。