开云

前（qián）言：

想（xiǎng）要（yào）实现全人类之间（jiān）的顺畅交流，一直都是一个遥不可及的美好（hǎo）期望，而人工智能的飞速发展，让我（wǒ）们看到了这一希（xī）望。

国内刚需明显提升

在中国，从事同（tóng）传（chuán）工作的，大（dà）多数是英语专（zhuān）业背景，精（jīng）通（tōng）全领域是充（chōng）分而非必要（yào）条件（jiàn）。而（ér）面对涉及（jí）医（yī）疗（liáo）、数学和物理等领域的会议时，同（tóng）传人员（yuán）并不能很好地将这些相（xiàng）关术语准地翻（fān）译。

当学术盲点变成了行业（yè）痛点，以语音智能（néng）见长的科技公司便（biàn）主动出击，抓住了同声传译这一细分市场的（de）机（jī）遇，迭代到（dào）3．0版本的搜狗同传便是向这一细分市场布（bù）局的（de）开端。

机器同传的产品（pǐn）价值，主要体现在其致力于解决跨语言交流、跨语言（yán）信息获取和语言表达的电子化记（jì）录等障（zhàng）碍。若要真（zhēn）正实现这三点，不能单纯地把语音识别和机器翻译做嫁接，而需（xū）要一套（tào）完整（zhěng）的有机系统（tǒng）。

Ai芯天下丨（shù）观（guān）点丨陈伟：AI语音（yīn）市场（chǎng）要靠3.0技术（shù）撬动 portant;" />

语（yǔ）境（jìng）引擎（qíng）＝多模态＋知识图（tú）谱（pǔ）

去年12月，基于（yú）语境引擎的搜狗同传3．0以多模态和自主学（xué）习为核心，加入视觉和思维能力，这是（shì）AI同（tóng）传在加（jiā）入诸如视觉AI、知识图谱等能力后（hòu）的再（zài）度进化。

最新发布的（de）搜狗同传3．0，内核（hé）进化成为了语境引擎。除（chú）了“语音信息＋OCR”的结合方式，升级后（hòu）的产品，最大亮（liàng）点是在“能听（tīng）会看”的多模态基（jī）础上（shàng），注入（rù）了思考和推理能（néng）力，背后（hòu）靠的是知识图谱的加持。

多模态同传，即AI获取信息的渠道不再是语（yǔ）音，还（hái）包含图像等其他内（nèi）容。这种多（duō）模态（tài）的交互方式是搜狗一直坚信的（de）趋势（shì），也是（shì）与（yǔ）人最自然的一种交流方式。

“会看”，意味（wèi）着同传首次具备了视（shì）觉能力（lì）。“能理（lǐ）解会推理”，则（zé）意味着同（tóng）传具备了与人“共情”的能力。

Ai芯（xīn）天下（xià）丨观点丨陈伟：AI语音市场（chǎng）要靠3.0技术撬动 portant;" />

基于语境引擎（qíng）开发的搜狗（gǒu）同传3．0为演讲者构（gòu）建了个性化的认（rèn）知语境，能（néng）够跟随演讲者一起“思考（kǎo）”，无疑是AI同传领域（yù）的又一大技术创新。

可以像（xiàng）人类一（yī）样，从语音和图像（xiàng）中获取信息，不仅（jǐn）会听，还（hái）能同时看图、查资料，从（cóng）而提高了同声传（chuán）译的准确（què）性，在AI同（tóng）传落地应用中属首创。

尤其是面对（duì）专有（yǒu）名词、专业术（shù）语较多的（de）场景，相比传统只依（yī）赖语音的技（jì）术，针（zhēn）对PPT内（nèi）容（róng）将翻（fān）译的正确率提（tí）升了40．3％。

Ai芯（xīn）天下丨观点丨陈伟：AI语音市场要靠3.0技（jì）术撬动 portant;" />

陈伟（wěi）认为（wéi），多模态技术是未来人机交互的发展方向。从（cóng）搜狗同传的技术（shù）升级（jí）之路中，我们也可以看出搜狗下一步的计划（huá）。

据陈伟介绍，搜狗同传3．0相对于上一代产品主要有（yǒu）三方面能力的（de）提（tí）升：

更加接近自然，从单纯的语音识别（bié）到语（yǔ）音＋图（tú）像，新的方法模拟了人工同传（chuán）的工作方式，增加视觉和大（dà）脑扩（kuò）散知识（shí）点（diǎn）的（de）功能（néng），拥有更为复杂的感知系统。

更加专业，此前的AI同传模（mó）型使用（yòng）通（tōng）用（yòng）数据，新的模型通过实（shí）时定（dìng）制知识增强能力，能（néng）够（gòu）捕捉现场PPT内容补充演讲相（xiàng）关的专业领（lǐng）域的知识，并（bìng）针对（duì）每一个（gè）演讲（jiǎng）进行（háng）模型定（dìng）制，提升同（tóng）传效果（guǒ）。

Ai芯天下丨观点丨陈伟：AI语音（yīn）市（shì）场要靠3.0技术撬动（dòng） portant;" />

搜狗同（tóng）传的技术迭代之路

2016年11月（yuè）推出的搜狗同传1．0通用（yòng）语音同传是首个商用（yòng）机器同传产品，实（shí）现了语音同传（chuán）的功能。

2018年，搜（sōu）狗同传2．0集成（chéng）TTS，首次实现语音到语音同传，并可根据用（yòng）户语料实时定制，同时它还用上了首个英译中同传引（yǐn）擎。

到3．0，搜狗（gǒu）同传已经是一（yī）款业内首创的多模态＋自主学习的同（tóng）传产品，能听、会看，能理解、会（huì）推理是它（tā）的特点，同时（shí）增加了实时捕捉（zhuō）PPT内容的功能（néng）。

搜狗（gǒu）1．0时，输入仅是语音（yīn），2．0开始做语音＋个性化，以（yǐ）及说话人的语境（jìng）背景（jǐng）输入；3．0加入了（le）知识图谱，把语（yǔ）音、视觉等信息作为语音识别的输入。现在，业内技（jì）术普遍介于1．0和（hé）2．0之间，而（ér）搜（sōu）狗依靠图谱方式，已经率（lǜ）先进入3．0时代。

2．0时代（dài），搜狗同传会首（shǒu）先对文本进行规则化（huà），让（ràng）文本变得流利，丢弃一（yī）些语义词和停顿词等（děng），但会遇到延时（shí）很大的问题。

在3．0时代（dài），搜狗同传加入了语义单元（yuán），识别判（pàn）断一（yī）句话为独立的一个单元，系统（tǒng）可以（yǐ）在讲话者说话的同时可（kě）以立即上屏（píng），降低同传系（xì）统的延迟。

Ai芯天（tiān）下丨（shù）观点（diǎn）丨（shù）陈伟：AI语（yǔ）音市场要靠3.0技术撬动 portant;" />

机（jī）器翻译与人工之间的差距在拉近

机器翻译（yì）的历史可能比大（dà）多数人想象中都要久（jiǔ）远，1954年初（chū），乔（qiáo）治城（chéng）大学的实验的一台电脑成功将四十多条俄文句子自（zì）动翻译成英文，这一（yī）事件成为机器翻译史（shǐ）中的一个里（lǐ）程碑，标志着现（xiàn）代机器（qì）翻译（yì）的开（kāi）端（duān）。

60多年过去了，机器翻译产品已经走进每个人的日常生活，在大型会议等场景（jǐng）下（xià）被（bèi）广泛采（cǎi）用。

虽然翻译效果仍有待提高，但机器翻译（yì）已（yǐ）经成为（wéi）提高（gāo）翻译效（xiào）率（lǜ）不可或缺的工具（jù），并催生了一大批从事（shì）AI翻译研究（jiū）的企（qǐ）业，国内有搜狗、腾讯、科（kē）大（dà）讯飞（fēi）等，国外有谷（gǔ）歌、微软（ruǎn）等。

翻译领域有些工作是有重复（fù）性的，包括（kuò）同传领域，机器在某些方面会优于人工，比如知识（shí）面、领域知（zhī）识的拓展性上（shàng），机器比真人的（de）知识面（miàn）更广阔，并能够快速查询（xún）背后海量的知识体系，这比（bǐ）真人在某些领（lǐng）域的翻译上的准（zhǔn）确率更高（gāo）。

在（zài）支（zhī）持了上千场会议（yì）之后，他们发现从成本上来看，机器翻译的（de）成本一定（dìng）是低于人工的，且边（biān）际成本会随（suí）着（zhe）使用量增加越（yuè）来越低。

与人相比，机器（qì）翻译成本更低，需要支持的（de）设备也更少，一台笔记（jì）本（běn），一（yī）条视频线、一（yī）条音频（pín）线，连（lián）上就可（kě）以工作。

机器同（tóng）传（chuán）在未来的地位

从机器同传（chuán）的流程（chéng）来（lái）看（kàn），当机器视（shì）觉捕捉（zhuō）到核心关键词之后，会根据搜狗的知（zhī）识图谱技术，把相关的词汇（huì）以及专业领域相关的词语拓展出来，作为语（yǔ）音识（shí）别和（hé）翻译的加强（qiáng）。

未来，机器同传可向（xiàng）记者采（cǎi）访、跨国办公会议、中（zhōng）英（yīng）文视频直播、字幕翻译（yì）等场景延（yán）展。这（zhè）些应（yīng）用场景最（zuì）主要的挑（tiāo）战，是怎么（me）保证（zhèng）机器同传的稳定（dìng）效（xiào）果，考（kǎo）验的是采（cǎi）集设备、网络（luò）环境、识别（bié）能力等（děng）。

未来面（miàn）向人（rén）和机器交互过程（chéng）中，一定是多模态的（de），搜狗提倡的技术主张，使（shǐ）机器（qì）同传和同类（lèi）产品拉开了一代之差。他们还是以同传为主，搜狗已经从语音跨到了多模态，并（bìng）把对于知识（shí）和语音（yīn）的理解放进去，使（shǐ）同传开始具（jù）备一定的认知能力。

而搜（sōu）狗在（zài）AI语音商业化的（de）进程，最（zuì）终（zhōng）的指向（xiàng）还是消（xiāo）费者端。未来各种各样的场（chǎng）合都可能用（yòng）到（dào）搜狗同传的技（jì）术，通过同（tóng）传（chuán）打磨（mó）的能（néng）力也可以反向用于C端产品。

一直以来，人工智能技术只能（néng）在展示在（zài）实验室中，随着深度（dù）学习等技术的研究成熟，人工（gōng）智（zhì）能（néng）技术加持的（de）产（chǎn）品也逐渐开始落（luò）地。

多模（mó）态技术未来发展

很多公司都意识到多模态（tài）技术重要性（xìng），并将研（yán）究（jiū）成果（guǒ）落地到各种应用中，比如腾讯、优酷等视频（pín）网站平台，快手（shǒu）等短视频平（píng）台都（dōu）将多模态技术应用于内容理解上，在获取用（yòng）户和加（jiā）强与用户的互动交（jiāo）流上（shàng）起到了重要作用。

目前（qián）关于多（duō）模态的研究课题（tí）还（hái）是要从产（chǎn）品（pǐn）和（hé）实际需求倒推功能，这涉（shè）及到异构数据融合的问题。

多模态表达，在语义上（shàng）如（rú）何进行对（duì）齐，提取（qǔ）同（tóng）一需求的多模态特征，如何更好地（dì）跨（kuà）越（yuè）语义的鸿沟，异构数据如（rú）何融合，都是多模态（tài）技（jì）术会遇到的问题。

随（suí）着精度的逐步提高，搜狗同（tóng）传所（suǒ）采用（yòng）的（de）AI技（jì）术，未来还将有更广阔（kuò）的的应用空间，赋予我们更多的可能性。比如，实时私人（rén）翻译（yì）乃至文学作品的译制（zhì），可以让我们足不出（chū）户（hù），享受（shòu）第一（yī）手国际作品（pǐn）的字（zì）幕体（tǐ）验（yàn）。

而在（zài）跨国（guó）界、跨（kuà）领域等项（xiàng）目（mù）合作方面（miàn），逐渐实现无缝对接，能够显著（zhe）提高整体的工程协作效率。

结尾：

当（dāng）然必须要承认，无（wú）论（lùn）是搜狗同传还是其他玩家，大家目前距离（lí）顶级同（tóng）传的水准还有很长的路（lù）要走，目前的机器同传能力（lì）和顶（dǐng）级（jí）人工（gōng）同传相比（bǐ），仍存在不（bú）小的差距。