前(qián)言:
想(xiǎng)要(yào)实现全人类之间(jiān)的顺畅交流,一直都是一个遥不可及的美好(hǎo)期望,而人工智能的飞速发展,让我(wǒ)们看到了这一希(xī)望。
国内刚需明显提升
在中国,从事同(tóng)传(chuán)工作的,大(dà)多数是英语专(zhuān)业背景,精(jīng)通(tōng)全领域是充(chōng)分而非必要(yào)条件(jiàn)。而(ér)面对涉及(jí)医(yī)疗(liáo)、数学和物理等领域的会议时,同(tóng)传人员(yuán)并不能很好地将这些相(xiàng)关术语准地翻(fān)译。
当学术盲点变成了行业(yè)痛点,以语音智能(néng)见长的科技公司便(biàn)主动出击,抓住了同声传译这一细分市场的(de)机(jī)遇,迭代到(dào)3.0版本的搜狗同传便是向这一细分市场布(bù)局的(de)开端。
机器同传的产品(pǐn)价值,主要体现在其致力于解决跨语言交流、跨语言(yán)信息获取和语言表达的电子化记(jì)录等障(zhàng)碍。若要真(zhēn)正实现这三点,不能单纯地把语音识别和机器翻译做嫁接,而需(xū)要一套(tào)完整(zhěng)的有机系统(tǒng)。
portant;" />
语(yǔ)境(jìng)引擎(qíng)=多模态+知识图(tú)谱(pǔ)
去年12月,基于(yú)语境引擎的搜狗同传3.0以多模态和自主学(xué)习为核心,加入视觉和思维能力,这是(shì)AI同(tóng)传在加(jiā)入诸如视觉AI、知识图谱等能力后(hòu)的再(zài)度进化。
最新发布的(de)搜狗同传3.0,内核(hé)进化成为了语境引擎。除(chú)了“语音信息+OCR”的结合方式,升级后(hòu)的产品,最大亮(liàng)点是在“能听(tīng)会看”的多模态基(jī)础上(shàng),注入(rù)了思考和推理能(néng)力,背后(hòu)靠的是知识图谱的加持。
多模态同传,即AI获取信息的渠道不再是语(yǔ)音,还(hái)包含图像等其他内(nèi)容。这种多(duō)模态(tài)的交互方式是搜狗一直坚信的(de)趋势(shì),也是(shì)与(yǔ)人最自然的一种交流方式。
“会看”,意味(wèi)着同传首次具备了视(shì)觉能力(lì)。“能理(lǐ)解会推理”,则(zé)意味着同(tóng)传具备了与人“共情”的能力。
portant;" />
基于语境引擎(qíng)开发的搜狗(gǒu)同传3.0为演讲者构(gòu)建了个性化的认(rèn)知语境,能(néng)够跟随演讲者一起“思考(kǎo)”,无疑是AI同传领域(yù)的又一大技术创新。
可以像(xiàng)人类一(yī)样,从语音和图像(xiàng)中获取信息,不仅(jǐn)会听,还(hái)能同时看图、查资料,从(cóng)而提高了同声传(chuán)译的准确(què)性,在AI同(tóng)传落地应用中属首创。
尤其是面对(duì)专有(yǒu)名词、专业术(shù)语较多的(de)场景,相比传统只依(yī)赖语音的技(jì)术,针(zhēn)对PPT内(nèi)容(róng)将翻(fān)译的正确率提(tí)升了40.3%。
portant;" />
陈伟(wěi)认为(wéi),多模态技术是未来人机交互的发展方向。从(cóng)搜狗同传的技术(shù)升级(jí)之路中,我们也可以看出搜狗下一步的计划(huá)。
据陈伟介绍,搜狗同传3.0相对于上一代产品主要有(yǒu)三方面能力的(de)提(tí)升:
更加接近自然,从单纯的语音识别(bié)到语(yǔ)音+图(tú)像,新的方法模拟了人工同传(chuán)的工作方式,增加视觉和大(dà)脑扩(kuò)散知识(shí)点(diǎn)的(de)功能(néng),拥有更为复杂的感知系统。
更加专业,此前的AI同传模(mó)型使用(yòng)通(tōng)用(yòng)数据,新的模型通过实(shí)时定(dìng)制知识增强能力,能(néng)够(gòu)捕捉现场PPT内容补充演讲相(xiàng)关的专业领(lǐng)域的知识,并(bìng)针对(duì)每一个(gè)演讲(jiǎng)进行(háng)模型定(dìng)制,提升同(tóng)传效果(guǒ)。
portant;" />
搜狗同(tóng)传的技术迭代之路
2016年11月(yuè)推出的搜狗同传1.0通用(yòng)语音同传是首个商用(yòng)机器同传产品,实(shí)现了语音同传(chuán)的功能。
2018年,搜(sōu)狗同传2.0集成(chéng)TTS,首次实现语音到语音同传,并可根据用(yòng)户语料实时定制,同时它还用上了首个英译中同传引(yǐn)擎。
到3.0,搜狗(gǒu)同传已经是一(yī)款业内首创的多模态+自主学习的同(tóng)传产品,能听、会看,能理解、会(huì)推理是它(tā)的特点,同时(shí)增加了实时捕捉(zhuō)PPT内容的功能(néng)。
搜狗(gǒu)1.0时,输入仅是语音(yīn),2.0开始做语音+个性化,以(yǐ)及说话人的语境(jìng)背景(jǐng)输入;3.0加入了(le)知识图谱,把语(yǔ)音、视觉等信息作为语音识别的输入。现在,业内技(jì)术普遍介于1.0和(hé)2.0之间,而(ér)搜(sōu)狗依靠图谱方式,已经率(lǜ)先进入3.0时代。
2.0时代(dài),搜狗同传会首(shǒu)先对文本进行规则化(huà),让(ràng)文本变得流利,丢弃一(yī)些语义词和停顿词等(děng),但会遇到延时(shí)很大的问题。
在3.0时代(dài),搜狗同传加入了语义单元(yuán),识别判(pàn)断一(yī)句话为独立的一个单元,系统(tǒng)可以(yǐ)在讲话者说话的同时可(kě)以立即上屏(píng),降低同传系(xì)统的延迟。
portant;" />
机(jī)器翻译与人工之间的差距在拉近
机器翻译(yì)的历史可能比大(dà)多数人想象中都要久(jiǔ)远,1954年初(chū),乔(qiáo)治城(chéng)大学的实验的一台电脑成功将四十多条俄文句子自(zì)动翻译成英文,这一(yī)事件成为机器翻译史(shǐ)中的一个里(lǐ)程碑,标志着现(xiàn)代机器(qì)翻译(yì)的开(kāi)端(duān)。
60多年过去了,机器翻译产品已经走进每个人的日常生活,在大型会议等场景(jǐng)下(xià)被(bèi)广泛采(cǎi)用。
虽然翻译效果仍有待提高,但机器翻译(yì)已(yǐ)经成为(wéi)提高(gāo)翻译效(xiào)率(lǜ)不可或缺的工具(jù),并催生了一大批从事(shì)AI翻译研究(jiū)的企(qǐ)业,国内有搜狗、腾讯、科(kē)大(dà)讯飞(fēi)等,国外有谷(gǔ)歌、微软(ruǎn)等。
翻译领域有些工作是有重复(fù)性的,包括(kuò)同传领域,机器在某些方面会优于人工,比如知识(shí)面、领域知(zhī)识的拓展性上(shàng),机器比真人的(de)知识面(miàn)更广阔,并能够快速查询(xún)背后海量的知识体系,这比(bǐ)真人在某些领(lǐng)域的翻译上的准(zhǔn)确率更高(gāo)。
在(zài)支(zhī)持了上千场会议(yì)之后,他们发现从成本上来看,机器翻译的(de)成本一定(dìng)是低于人工的,且边(biān)际成本会随(suí)着(zhe)使用量增加越(yuè)来越低。
与人相比,机器(qì)翻译成本更低,需要支持的(de)设备也更少,一台笔记(jì)本(běn),一(yī)条视频线、一(yī)条音频(pín)线,连(lián)上就可(kě)以工作。
机器同(tóng)传(chuán)在未来的地位
从机器同传(chuán)的流程(chéng)来(lái)看(kàn),当机器视(shì)觉捕捉(zhuō)到核心关键词之后,会根据搜狗的知(zhī)识图谱技术,把相关的词汇(huì)以及专业领域相关的词语拓展出来,作为语(yǔ)音识(shí)别和(hé)翻译的加强(qiáng)。
未来,机器同传可向(xiàng)记者采(cǎi)访、跨国办公会议、中(zhōng)英(yīng)文视频直播、字幕翻译(yì)等场景延(yán)展。这(zhè)些应(yīng)用场景最(zuì)主要的挑(tiāo)战,是怎么(me)保证(zhèng)机器同传的稳定(dìng)效(xiào)果,考(kǎo)验的是采(cǎi)集设备、网络(luò)环境、识别(bié)能力等(děng)。
未来面(miàn)向人(rén)和机器交互过程(chéng)中,一定是多模态的(de),搜狗提倡的技术主张,使(shǐ)机器(qì)同传和同类(lèi)产品拉开了一代之差。他们还是以同传为主,搜狗已经从语音跨到了多模态,并(bìng)把对于知识(shí)和语音(yīn)的理解放进去,使(shǐ)同传开始具(jù)备一定的认知能力。
而搜(sōu)狗在(zài)AI语音商业化的(de)进程,最(zuì)终(zhōng)的指向(xiàng)还是消(xiāo)费者端。未来各种各样的场(chǎng)合都可能用(yòng)到(dào)搜狗同传的技(jì)术,通过同(tóng)传(chuán)打磨(mó)的能(néng)力也可以反向用于C端产品。
一直以来,人工智能技术只能(néng)在展示在(zài)实验室中,随着深度(dù)学习等技术的研究成熟,人工(gōng)智(zhì)能(néng)技术加持的(de)产(chǎn)品也逐渐开始落(luò)地。
多模(mó)态技术未来发展
很多公司都意识到多模态(tài)技术重要性(xìng),并将研(yán)究(jiū)成果(guǒ)落地到各种应用中,比如腾讯、优酷等视频(pín)网站平台,快手(shǒu)等短视频平(píng)台都(dōu)将多模态技术应用于内容理解上,在获取用(yòng)户和加(jiā)强与用户的互动交(jiāo)流上(shàng)起到了重要作用。
目前(qián)关于多(duō)模态的研究课题(tí)还(hái)是要从产(chǎn)品(pǐn)和(hé)实际需求倒推功能,这涉(shè)及到异构数据融合的问题。
多模态表达,在语义上(shàng)如(rú)何进行对(duì)齐,提取(qǔ)同(tóng)一需求的多模态特征,如何更好地(dì)跨(kuà)越(yuè)语义的鸿沟,异构数据如(rú)何融合,都是多模态(tài)技(jì)术会遇到的问题。
随(suí)着精度的逐步提高,搜狗同(tóng)传所(suǒ)采用(yòng)的(de)AI技(jì)术,未来还将有更广阔(kuò)的的应用空间,赋予我们更多的可能性。比如,实时私人(rén)翻译(yì)乃至文学作品的译制(zhì),可以让我们足不出(chū)户(hù),享受(shòu)第一(yī)手国际作品(pǐn)的字(zì)幕体(tǐ)验(yàn)。
而在(zài)跨国(guó)界、跨(kuà)领域等项(xiàng)目(mù)合作方面(miàn),逐渐实现无缝对接,能够显著(zhe)提高整体的工程协作效率。
结尾:
当(dāng)然必须要承认,无(wú)论(lùn)是搜狗同传还是其他玩家,大家目前距离(lí)顶级同(tóng)传的水准还有很长的路(lù)要走,目前的机器同传能力(lì)和顶(dǐng)级(jí)人工(gōng)同传相比(bǐ),仍存在不(bú)小的差距。