LIO:数字翻译大作战:火山翻译精准通关

近期,国外一份调查报告误将392万和83万的采购费用翻译为39.2亿和830万,闹出国际笑话。有分析认为,此乌龙事件是国外机器翻译软件造成的。

让很多人意想不到的是,看似简单的数字,在机器翻译中向来是一大痛点。就以「392.687694万元」为例,我们测试不同翻译软件的翻译结果。

数字翻译「中译英」测试

首先测试「中译英」,国内外9款主流翻译软件中,只有火山翻译和腾讯翻译君准确地翻译出了392万。其余7款产品,有翻译成392的,有翻译成39.2亿的,甚至还有翻译成392万亿的,比正确结果扩大一亿倍,另外4款都翻译成了3.92亿。测试结果如下列组图所示。

火山翻译:

腾讯翻译君:

欧洲央行发布数字欧元第三份进展报告,推出后或将增加跨境功能:4月25日消息,欧洲中央银行(ECB)发布关于数字欧元设计的第三份进展报告,研究了欧洲央行管理委员会批准的数字欧元访问和分配选项,其中数字欧元用户将由支付服务提供商(PSP)按照其既定程序(如 KYC)进行注册,店内销售可以使用二维码或非接触式技术进行,在线支付和离线功能也将成为可能,PSP 将能够提供可选和增值服务,例如分期付款或定期付款。此外数字欧元在欧元区推出后,可能会增加跨境功能。[2023/4/25 14:24:50]

以下为其他7款翻译产品的测试结果。

翻译为39.2亿:

翻译为392:

美妆购物平台丝芙兰中国发布PFP数字藏品,限量30万份:2月22日消息,LVMH集团旗下美妆购物平台丝芙兰中国在会员日活动中发布首个数字藏品,限量30万份,系基于ERC-721协议PFP头像:Sephora Beauty Pass Family,可作为丝芙兰会员体系中的用户头像永久保存。

此次活动时间2月22日00:01至3月7日23:59,根据活动规则,该数字藏品仅服务于用户在丝芙兰会员体系中的体验,不得用于任何其他商业目的。目前不可转赠、不可售卖或以其它任何形式进行转让。本次活动定制数字藏品知识版权归属干丝芙兰中国。[2023/2/22 12:21:55]

翻译为392万亿:

翻译为3.92亿:

数字货币板块午后持续拉升,科蓝软件涨超14%:12月14日消息,数字货币板块午后持续拉升,科蓝软件涨超14%,旗天科技、新国都、优博讯跟涨。[2021/12/14 7:37:52]

数字翻译「英译中」测试

我们用不同软件把英文「3.92687694millionyuan(RMB)」翻译回中文,会是怎么样的结果?

这次只有火山翻译准确翻译出了392万元人民币。其他8款产品,有翻成3.92万的,有翻成39.2亿的,也有翻成392万亿的,另外5家都翻成了3.92万亿。测试结果见下列组图。

火山翻译:

数字钱包和支付平台Zumo去年12月有逾万名新用户注册:由酷玩乐队贝斯手Guy Berryman支持的数字钱包和支付平台Zumo去年成功获得了一轮融资,并与Modulr公司建立了合作关系。Zumo称在推出注册推广活动后,其APP去年12月有逾1万名英国新用户注册。据悉,去年8月,Zumo进行了一场众筹活动,4天内就突破了100万英镑的目标。去年11月,该公司宣布,自6月推出Zumo应用以来,已有1万名用户安装了该应用。(DIGIT)[2021/1/15 16:15:08]

其他产品的翻译结果:

声音 | 中国区块链应用研究中心邓迪:央行数字货币为国家金融安全保驾护航:1月11日消息,德胜门大讲堂暨首届中国区块链应用研究中心年会在京举办。中国区块链应用研究中心第二任理事长邓迪在演讲中表示,全球数字化转型已成定局,各国政府相继提出数字化战略,并着手建立自己的数字化政府事务平台,央行数字货币的发行能够为一个国家的金融安全保驾护航。谈及DCEP,邓迪直言它能够推动行业演进,区块链数字支付时代将至。“DCEP是人民币国家化的关键,它的背后也有中国扩张国际影响力和海外资本的内在推动力。”(火星财经)[2020/1/11]

数字的重要性毋庸多言,在商业条款中如果翻译错一个数字,可能会带来成千上万的损失;建筑图纸中一个数字翻译的疏漏,就可能导致一项庞大建筑工程轰然倒塌。想要保证数字翻译的准确度,远不是誊写一串阿拉伯数字再翻译单位这么简单。从上面测试中也可以看到,一些国际巨头的翻译产品,在数字翻译中照样会出现偏差万倍甚至上亿倍的错误。

数字翻译难在哪?

数字翻译对翻译者关于目标语言数字表达的理解要求较高,在中英翻译中,数字翻译的难点主要在以下方面:

a.中英语言中不同的数字单位,如1000万翻译成10million,不能简单地「拷贝」

b.很长的数字容易带来偏差

c.超大数字的翻译问题,如trillion、万亿以上的单位

d.中英语言中不同的计量单位,如中文中的“斤”,容易被翻译成“kg”

e.带有货币符号的数字容易犯错

当前,很多翻译软件对数字没有做额外的处理,采用的是与普通文字相同的sequence-to-sequence神经机器翻译模型。这一模型翻译质量较高,流畅性较好,但存在一个显著的缺陷,就是缺乏常识和推理能力,无法理解对于人类来说比较简单的规则,例如,“万”和“million”的的转换、单位货币之间的不同等。

火山翻译如何解决数字翻译难题?

我们从火山翻译技术分享中了解到,火山翻译的翻译模型见到对应的数字之后,会将其抽取出来,通过推理、计算等智能过程,对数字进行跨语言的语义转换,然后将其置于翻译句子适当的位置中,类似人类的翻译推理过程。

火山翻译是字节跳动旗下火山引擎的AI中台能力之一,技术能力已经在飞书的文档、消息翻译和火山引擎的企业级客户中广泛应用。由于当前机器翻译场景中存在大量的数字内容,数字翻译也一直是火山翻译团队持续优化的重要方向。目前,火山翻译已经支持56门语言、3080个语向的翻译。

郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。

链链资讯

[0:15ms0-3:417ms