首页 要闻娱乐军事情感奇闻搞笑社会体育游戏百科

goole即时翻译 Google 翻译中更稳定的实时语音翻译

2022-01-11 18:49

Text/Naveen Arivazhagan,谷歌研究高级软件工程师;科林·切里,谷歌研究的高级研究员

使用谷歌翻译应用程序中的转录功能,您可以为会议和演讲等活动以及用您不懂的语言讲述的餐桌故事创建实时翻译抄本。在这样的环境下,及时显示翻译文本可以帮助读者更好更快地理解信息。

Google 翻译应用中的转录功能 https://blog.google/products/translate/transcribe-speech/

但是在这个功能的早期版本中,翻译被实时修改了很多次,非常分散注意力。这是由于源文本和目标文本之间的非单调关系,其中源文本末尾的单词会影响目标文本开头的单词。

今天,我们很荣幸地介绍谷歌翻译应用程序中转录功能最新更新背后的一些技术,这些技术显著减少了翻译修订,改善了用户体验。有两篇论文描述了实现这一更新的研究。第一章建立了适合实时翻译的评价框架,并提出了减少不稳定性的方法。第二部分通过与其他方法的比较,展示了这些方法的优越效果和与原方法相当的便捷性。由此产生的模型更加稳定,显著改善了谷歌翻译的阅读体验。

第一篇 https://arxiv.org/abs/2004.03643第二篇 https://arxiv.org/abs/2004.03643

评估实时翻译

在尝试改进之前,我们应该首先了解和量化用户体验的不同方面,从而最大限度地提高质量,最大限度地减少延迟和不稳定性。在“长形式、同声传译、口语翻译的再翻译策略”中,我们开发了一个实时翻译评估框架,该框架一直指导着我们的研究和工程工作。这项工作提出了一个使用以下指标的绩效衡量标准:

更正:衡量不稳定给用户带来的额外阅读负担。它显示了最终翻译中删除和替换的单词数量。

延迟:它测量从用户说出一个单词到屏幕上显示的单词翻译变得稳定所经过的平均时间。要求稳定性可以避免奖励由于频繁修正而只能快速运行的系统。

BLEU 分数 :衡量最终翻译的 质量 。中间翻译的质量差异由所有指标的组合体现。

长格式同声传译口语翻译的再翻译策略

https://arxiv.org/abs/1912.03393

稳定重译

STACL https://arxiv.org/abs/1810.08398MILk https://arxiv.org/abs/1906.05218

流式翻译模型的缺点是再次处于极端位置:零擦除必须牺牲BLEU,延迟必须发生。为偶尔的不稳定做一个小预算可能会带来比完全消除擦除更好的BLEU和延迟。更重要的是,流式翻译需要重新训练和维护一个特殊的实时翻译模型。这排除了在某些情况下使用流式翻译的可能性,因为对于支持100多种语言的谷歌翻译等产品来说,保持精简的管道是一个重要的考虑因素。

在我们的第二篇论文“再翻译与流同步翻译”中,我们表明原始的“再翻译”实时翻译方法可以进行微调,减少擦除,并在擦除/延迟/BLEU之间实现更有利的权衡。在不训练排他模型的情况下,我们对原始机器翻译模型应用了一对推理时间启发式方法——屏蔽和偏置。

Re-translation versus Streaming for Simultaneous Translation https://arxiv.org/abs/2004.03643

正在进行的翻译通常会在最后闪现,因为它可能更依赖于尚未出现的源词。为了减少这种情况,我们从翻译中删除了一些单词,直到观察到源句的结尾。因此,这种掩蔽过程以延迟换取稳定性并确保质量。这与Wait-k等流方法中使用的基于延迟的策略非常相似,但它仅用于推理过程,而不是非训练过程。

Wait-k https://arxiv.org/abs/1810.08398

神经机器翻译经常“纠缠”在同样好的翻译之间,导致不必要的纠正和删除。我们将输出偏向已向用户显示的内容,从而提高稳定性。在减少擦除的基础上,偏置可以通过提前稳定平移来减少延迟。偏置和覆盖可以很好地相互作用,因为覆盖可能不够稳定的词也会阻止模型向它们倾斜。但是这个过程需要精细调整,因为偏置太高,覆盖不充分,可能会对质量造成负面影响。

掩蔽和偏置的结合产生了具有高质量和低延迟的重译系统,并且几乎消除了擦除。下表显示了我们的启发式方法的索引结果及其与上述其他系统的比较。该图显示,即使拨出用于校正的预算很少,重新翻译仍然优于专门为实时翻译而训练的零闪烁流式翻译系统。

系统 BLEU 延迟 纠删 重译 20.44.12.1+ 稳定 20.24.10.1

本文评价了2018年英语到德语国际学生语言测试的重译,有无覆盖和有偏推理-时间稳定启发式方法。稳定性大大减少了修正的次数。由于偏见,翻译质量受到的影响很小。尽管有掩蔽,但有效延迟保持不变,因为转换会更快稳定下来。

英语到德语的重译与WMT 14稳定独家流媒体模式的比较。通过偏置和覆盖的不同组合,我们得到了复译的BLEU- delay权衡曲线,并且在每10个生成的词中保持擦除的预算少于2个词。与不能被校正并且需要针对每个折衷点进行特殊训练的流模型相比,重新翻译提供了更好的BLEU/延迟折衷

IWSLT 测试 2018 英语到德语 https://workshop2018.iwslt.org/

结论

上述解决方案可以快速返回到适当的翻译,同时允许更多的源句在被说出后被修改。重译的简单结构使我们能够轻松应用我们最好的语音和翻译模型。然而,擦除的减少仅代表部分改善,我们还期望通过更多新技术来改善整体语音翻译体验,例如减少翻译和说话时的延迟,或者在多人说话时实现更好的转录。

谢谢你

感谢忒伊、德克·帕德菲尔德、乔治·福斯特、沃尔夫冈·马切里、帕拉维·巴尔杰卡尔、萨米·伊克拉姆、约翰·理查森、李匡彻、布莱恩·林、萌萌·牛、内森·贝恩、林赛·博兰、什利普·瓦伊什纳夫、坎努·梅塔、克里斯·考、汤姆·斯莫尔、杰夫·皮特曼和麦克达夫·休斯。

相关阅读
廖智现任老公杨志刚 42岁杨采妮怀孕5个月!现任老公是谁?当年跟金城武、吴奇隆三角恋内幕
2017年娱乐圈第一件喜事,42岁玉女杨采妮怀孕了!她与老公邱韶智在1997年公开恋情,两人爱情长跑10多年,期间一度传出分手后复合,2013年10月底在新加坡完婚,结婚3年多,终于在1月2日证实怀孕5个月。2017年的元旦,媒体发现梁咏琪与李心洁都飞到了新加坡,陪伴好闺蜜杨采妮一起迎接新年!三个美女一起拍摄合照时,杨采妮无端端用枕头遮挡肚子,她是不是怀孕了呢?1月2日,港媒向杨采妮求证,原来她真14在看 07-07
蔡妍自杀事件真相始末
蔡妍被称为韩国的"性感女神",性感美艳的她迷倒无数少男少女,星途也一片大好,然而在2012年的时候却传出她因患上抑郁症而自杀不遂的消息,这究竟是怎么一回事呢?下面小编将为大家揭晓。蔡妍自杀事件始末2012年4月11日中午,金鹰网官方微博发布一则"传女星蔡妍身患抑郁症自杀"的消息,并称"蔡妍疑似因为忧郁症,在家中自杀,幸好被人即时发现与抢救,目前在医院观察治疗",微博曝光后,立即引起众多网友的关注。17在看 07-07
秦宇子胸好大 秦宇子身材真好胸围C罩杯 网友要求穿比基尼!
秦宇子,中国壮族姑娘。曾在美国加州 E-Time TV 网络电视台负责“热点音乐追追追”节目主持人。美国 KAZN 1300 KMNY 1600 广播电台“追星族”专栏特邀贵宾作现场采访,播放。曾频繁拍过电视,平面推行;曾作为美国城市杂志的封面人物登载影像并拟文先容。2014年8月8日,亮相中国好声音第三季。2014年9月19日,秦宇子抉择了一首律动版的《想你的三百六十五天》,所有导师都将票投给了21在看 07-07
潘迎紫80岁照片曝光 身材容貌宛如20岁少女
潘迎紫80岁照片让大家都不敢相信自己的眼睛。潘迎紫是谁?她可以算是现在爷爷奶奶辈他们年轻时当时的明星偶像。1963年潘迎紫开始了自己的演艺生涯,参演了包括《梁山伯与祝英台》在内的众多经典影视作品,但演艺事业一直平平,没有起色,直到1967年,潘迎紫在演艺圈开始慢慢蜕变成蝶,事业开始崭露头角,渐入佳境。直到2001年淡出演艺圈。潘迎紫80岁照片曝光 身材容貌宛如20岁少女网络爆出潘迎紫80岁照片时也12在看 07-07
王子轩结婚照 王子轩新剧饰演高富帅 受宠朱咪咪(图)
新浪娱乐讯 近日,都市情感喜剧片《牵过你的黑发我的手》开机热拍,该剧汇集了香港著名演员朱咪咪、王子轩、游游、张燃等一批优秀演员,青年演员王子轩在剧中饰演一个从海外学成归来的高富帅凯文。王子轩结婚照 王子轩新剧饰演高富帅 受宠朱咪咪(图)《牵过你的黑发我的手》讲述了家境殷实的大龄剩女雪娇爱上了农村进城创业的“屌丝”男,势利眼的准岳父、准岳母为了拆散他们,屡出怪招却接连失败,因此而上演了一幕幕啼笑皆非33在看 07-07

热文排行