生物科学门户网站
BIO1000.COM

模型为更快 更有效的更多语言翻译铺平了道路

麻省理工学院的研究人员开发了一种新颖的“无监督”语言翻译模型 - 意味着它无需人工注释和指导即可运行 - 这可以导致更快,更有效的基于计算机的更多语言翻译。

来自谷歌,Facebook和亚马逊的翻译系统需要培训模型来查找数百万文档中的模式 - 例如法律和政治文档或新闻文章 - 这些文档已被人类翻译成各种语言。给定一种语言的新单词,然后他们就可以找到另一种语言中匹配的单词和短语。

但是这种翻译数据耗时且难以收集,并且对于全世界使用的7000种语言中的许多语言而言可能根本不存在。最近,研究人员一直在开发“单语”模型,这些模型使两种语言的文本之间进行翻译,但两者之间没有直接的翻译信息。

在本周在自然语言处理经验方法会议上发表的论文中,麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员描述了一种比这些单语模型运行得更快,更有效的模型。

该模型利用统计中的度量,称为Gromov-Wasserstein距离,其基本上测量一个计算空间中的点之间的距离,并将它们与另一个空间中的类似距离点进行匹配。他们将这种技术应用于两种语言的“单词嵌入”,这两种语言是表示为向量的单词 - 基本上是数字数组 - 具有相似含义的单词聚集在一起。在这样做时,模型在两个嵌入中快速对齐单词或向量,这两个嵌入通过相对距离最密切相关,这意味着它们可能是直接翻译。

在实验中,研究人员的模型与最先进的单语模型一样准确 - 有时更准确 - 但速度更快,仅使用一小部分计算能力。

“该模型将两种语言中的单词视为一组向量,并通过基本保留关系将[这些向量]从一组映射到另一组,”该论文的共同作者Tommi Jaakkola说,他是CSAIL研究员和Thomas Siebel教授在电气工程和计算机科学系和数据,系统和社会研究所。“这种方法可以帮助翻译低资源语言或方言,只要它们有足够的单语内容。”

CSAIL博士生第一作者David Alvarez-Melis说:“如果你没有任何与两种语言相匹配的数据,那么该模型代表了机器翻译的主要目标之一,这是完全无监督的单词对齐。”你可以映射两种语言,并使用这些距离测量来对齐它们。“

关系最重要

对于无监督的机器翻译来对齐字嵌入并不是一个新概念。最近的工作训练神经网络直接在两种语言的词嵌入或矩阵中匹配向量。但是这些方法在训练期间需要进行大量调整以使对准完全正确,这是低效且耗时的。

另一方面,基于关系距离测量和匹配矢量是一种更加有效的方法,不需要太多的微调。无论单词向量落在给定矩阵中的哪个位置,单词之间的关系(即它们的距离)都将保持不变。例如,“父亲”的矢量可能落在两个矩阵的完全不同的区域中。但“父亲”和“母亲”的载体很可能总是紧密相连。

“这些距离是不变的,”Alvarez-Melis说。“通过查看距离,而不是向量的绝对位置,那么你可以跳过对齐并直接匹配向量之间的对应关系。”

这就是Gromov-Wasserstein派上用场的地方。该技术已被用于计算机科学,例如,帮助在图形设计中对齐图像像素。但是这个指标看起来似乎是“量身定做”的,Alvarez-Melis说:“如果在一个空间中有一些点或词,那么Gromov-Wasserstein会自动尝试找到相应的点集群。另一个空间。“

对于培训和测试,研究人员使用了一个公开可用的单词嵌入数据集,称为FASTTEXT,具有110种语言对。在这些嵌入和其他嵌入中,在类似上下文中越来越频繁出现的单词具有紧密匹配的向量。“母亲”和“父亲”通常会在一起,但距离“房子”更远。

提供“软翻译”

该模型注意到与其他矢量密切相关但不同的矢量,并且指定了在另一个嵌入中类似的距离矢量将对应的概率。这有点像“软翻译”,Alvarez-Melis说,“因为它不是仅仅返回一个单词翻译,而是告诉你'这个向量或单词与这个单词或单词有很强的对应关系,在另一个单词中语言。'”

一个例子是一年中的几个月,它们以多种语言紧密结合在一起。该模型将看到一组12个向量,这些向量在一个嵌入中聚类,在另一个嵌入中聚类非常相似。“该模型不知道这些是几个月,”Alvarez-Melis说。“它只知道有一组12个点与另一个语言中的12个点对齐,但它们与其他单词不同,所以它们可能很好地结合在一起。通过找到每个单词的这些对应关系然后它同时对齐整个空间。“

Jaakkola说,研究人员希望这项工作可以作为“可行性检查”,将Gromov-Wasserstein方法应用于机器翻译系统,以便更快,更高效地运行,并获得更多语言的访问权限。

另外,模型的一个可能的好处是它自动产生一个值,可以解释为在数字尺度上量化语言之间的相似性。研究人员表示,这可能对语言学研究有用。该模型计算两个嵌入中所有向量彼此之间的距离,这取决于句子结构和其他因素。如果矢量都非常接近,它们的分数将接近0,并且它们越远,分数越高。例如,法语和意大利语等类似的浪漫语言得分接近1,而经典汉语与其他主要语言得分在6到9之间。

Alvarez-Melis说:“这为你提供了一个很好的,简单的数字,用于表达类似语言的数据......并且可以用来描述语言之间的关系。”

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。