开云

    咨询热线:021-80392549

    开云 QQ在线 开云 企业微信
    开云
    开云 资(zī)讯(xùn) > 人工智能(néng) > 正文

    陈伟(wěi):AI语音市场要(yào)靠3.0技术撬动

    2020/01/24ai网430

    前(qián)言:

    想(xiǎng)要(yào)实现全人类之间(jiān)的顺畅交流,一直都是一个遥不可及的美好(hǎo)期望,而人工智能的飞速发展,让我(wǒ)们看到了这一希(xī)望。

    国内刚需明显提升

    在中国,从事同(tóng)传(chuán)工作的,大(dà)多数是英语专(zhuān)业背景,精(jīng)通(tōng)全领域是充(chōng)分而非必要(yào)条件(jiàn)。而(ér)面对涉及(jí)医(yī)疗(liáo)、数学和物理等领域的会议时,同(tóng)传人员(yuán)并不能很好地将这些相(xiàng)关术语准地翻(fān)译。

    当学术盲点变成了行业(yè)痛点,以语音智能(néng)见长的科技公司便(biàn)主动出击,抓住了同声传译这一细分市场的(de)机(jī)遇,迭代到(dào)3.0版本的搜狗同传便是向这一细分市场布(bù)局的(de)开端。

    机器同传的产品(pǐn)价值,主要体现在其致力于解决跨语言交流、跨语言(yán)信息获取和语言表达的电子化记(jì)录等障(zhàng)碍。若要真(zhēn)正实现这三点,不能单纯地把语音识别和机器翻译做嫁接,而需(xū)要一套(tào)完整(zhěng)的有机系统(tǒng)。

    Ai芯天下丨(shù)观(guān)点丨陈伟:AI语音(yīn)市场(chǎng)要靠3.0技术(shù)撬动portant;" />

    语(yǔ)境(jìng)引擎(qíng)=多模态+知识图(tú)谱(pǔ)

    去年12月,基于(yú)语境引擎的搜狗同传3.0以多模态和自主学(xué)习为核心,加入视觉和思维能力,这是(shì)AI同(tóng)传在加(jiā)入诸如视觉AI、知识图谱等能力后(hòu)的再(zài)度进化。

    最新发布的(de)搜狗同传3.0,内核(hé)进化成为了语境引擎。除(chú)了“语音信息+OCR”的结合方式,升级后(hòu)的产品,最大亮(liàng)点是在“能听(tīng)会看”的多模态基(jī)础上(shàng),注入(rù)了思考和推理能(néng)力,背后(hòu)靠的是知识图谱的加持。

    多模态同传,即AI获取信息的渠道不再是语(yǔ)音,还(hái)包含图像等其他内(nèi)容。这种多(duō)模态(tài)的交互方式是搜狗一直坚信的(de)趋势(shì),也是(shì)与(yǔ)人最自然的一种交流方式。

    “会看”,意味(wèi)着同传首次具备了视(shì)觉能力(lì)。“能理(lǐ)解会推理”,则(zé)意味着同(tóng)传具备了与人“共情”的能力。

    Ai芯(xīn)天下(xià)丨观点丨陈伟:AI语音市场(chǎng)要靠3.0技术撬动portant;" />

    基于语境引擎(qíng)开发的搜狗(gǒu)同传3.0为演讲者构(gòu)建了个性化的认(rèn)知语境,能(néng)够跟随演讲者一起“思考(kǎo)”,无疑是AI同传领域(yù)的又一大技术创新。

    可以像(xiàng)人类一(yī)样,从语音和图像(xiàng)中获取信息,不仅(jǐn)会听,还(hái)能同时看图、查资料,从(cóng)而提高了同声传(chuán)译的准确(què)性,在AI同(tóng)传落地应用中属首创。

    尤其是面对(duì)专有(yǒu)名词、专业术(shù)语较多的(de)场景,相比传统只依(yī)赖语音的技(jì)术,针(zhēn)对PPT内(nèi)容(róng)将翻(fān)译的正确率提(tí)升了40.3%。

    Ai芯(xīn)天下丨观点丨陈伟:AI语音市场要靠3.0技(jì)术撬动portant;" />

    陈伟(wěi)认为(wéi),多模态技术是未来人机交互的发展方向。从(cóng)搜狗同传的技术(shù)升级(jí)之路中,我们也可以看出搜狗下一步的计划(huá)。

    据陈伟介绍,搜狗同传3.0相对于上一代产品主要有(yǒu)三方面能力的(de)提(tí)升:

    更加接近自然,从单纯的语音识别(bié)到语(yǔ)音+图(tú)像,新的方法模拟了人工同传(chuán)的工作方式,增加视觉和大(dà)脑扩(kuò)散知识(shí)点(diǎn)的(de)功能(néng),拥有更为复杂的感知系统。

    更加专业,此前的AI同传模(mó)型使用(yòng)通(tōng)用(yòng)数据,新的模型通过实(shí)时定(dìng)制知识增强能力,能(néng)够(gòu)捕捉现场PPT内容补充演讲相(xiàng)关的专业领(lǐng)域的知识,并(bìng)针对(duì)每一个(gè)演讲(jiǎng)进行(háng)模型定(dìng)制,提升同(tóng)传效果(guǒ)。

    Ai芯天下丨观点丨陈伟:AI语音(yīn)市(shì)场要靠3.0技术撬动(dòng)portant;" />

    搜狗同(tóng)传的技术迭代之路

    2016年11月(yuè)推出的搜狗同传1.0通用(yòng)语音同传是首个商用(yòng)机器同传产品,实(shí)现了语音同传(chuán)的功能。

    2018年,搜(sōu)狗同传2.0集成(chéng)TTS,首次实现语音到语音同传,并可根据用(yòng)户语料实时定制,同时它还用上了首个英译中同传引(yǐn)擎。

    到3.0,搜狗(gǒu)同传已经是一(yī)款业内首创的多模态+自主学习的同(tóng)传产品,能听、会看,能理解、会(huì)推理是它(tā)的特点,同时(shí)增加了实时捕捉(zhuō)PPT内容的功能(néng)。

    搜狗(gǒu)1.0时,输入仅是语音(yīn),2.0开始做语音+个性化,以(yǐ)及说话人的语境(jìng)背景(jǐng)输入;3.0加入了(le)知识图谱,把语(yǔ)音、视觉等信息作为语音识别的输入。现在,业内技(jì)术普遍介于1.0和(hé)2.0之间,而(ér)搜(sōu)狗依靠图谱方式,已经率(lǜ)先进入3.0时代。

    2.0时代(dài),搜狗同传会首(shǒu)先对文本进行规则化(huà),让(ràng)文本变得流利,丢弃一(yī)些语义词和停顿词等(děng),但会遇到延时(shí)很大的问题。

    在3.0时代(dài),搜狗同传加入了语义单元(yuán),识别判(pàn)断一(yī)句话为独立的一个单元,系统(tǒng)可以(yǐ)在讲话者说话的同时可(kě)以立即上屏(píng),降低同传系(xì)统的延迟。

    Ai芯天(tiān)下丨(shù)观点(diǎn)丨(shù)陈伟:AI语(yǔ)音市场要靠3.0技术撬动portant;" />

    机(jī)器翻译与人工之间的差距在拉近

    机器翻译(yì)的历史可能比大(dà)多数人想象中都要久(jiǔ)远,1954年初(chū),乔(qiáo)治城(chéng)大学的实验的一台电脑成功将四十多条俄文句子自(zì)动翻译成英文,这一(yī)事件成为机器翻译史(shǐ)中的一个里(lǐ)程碑,标志着现(xiàn)代机器(qì)翻译(yì)的开(kāi)端(duān)。

    60多年过去了,机器翻译产品已经走进每个人的日常生活,在大型会议等场景(jǐng)下(xià)被(bèi)广泛采(cǎi)用。

    虽然翻译效果仍有待提高,但机器翻译(yì)已(yǐ)经成为(wéi)提高(gāo)翻译效(xiào)率(lǜ)不可或缺的工具(jù),并催生了一大批从事(shì)AI翻译研究(jiū)的企(qǐ)业,国内有搜狗、腾讯、科(kē)大(dà)讯飞(fēi)等,国外有谷(gǔ)歌、微软(ruǎn)等。

    翻译领域有些工作是有重复(fù)性的,包括(kuò)同传领域,机器在某些方面会优于人工,比如知识(shí)面、领域知(zhī)识的拓展性上(shàng),机器比真人的(de)知识面(miàn)更广阔,并能够快速查询(xún)背后海量的知识体系,这比(bǐ)真人在某些领(lǐng)域的翻译上的准(zhǔn)确率更高(gāo)。

    在(zài)支(zhī)持了上千场会议(yì)之后,他们发现从成本上来看,机器翻译的(de)成本一定(dìng)是低于人工的,且边(biān)际成本会随(suí)着(zhe)使用量增加越(yuè)来越低。

    与人相比,机器(qì)翻译成本更低,需要支持的(de)设备也更少,一台笔记(jì)本(běn),一(yī)条视频线、一(yī)条音频(pín)线,连(lián)上就可(kě)以工作。

    机器同(tóng)传(chuán)在未来的地位

    从机器同传(chuán)的流程(chéng)来(lái)看(kàn),当机器视(shì)觉捕捉(zhuō)到核心关键词之后,会根据搜狗的知(zhī)识图谱技术,把相关的词汇(huì)以及专业领域相关的词语拓展出来,作为语(yǔ)音识(shí)别和(hé)翻译的加强(qiáng)。

    未来,机器同传可向(xiàng)记者采(cǎi)访、跨国办公会议、中(zhōng)英(yīng)文视频直播、字幕翻译(yì)等场景延(yán)展。这(zhè)些应(yīng)用场景最(zuì)主要的挑(tiāo)战,是怎么(me)保证(zhèng)机器同传的稳定(dìng)效(xiào)果,考(kǎo)验的是采(cǎi)集设备、网络(luò)环境、识别(bié)能力等(děng)。

    未来面(miàn)向人(rén)和机器交互过程(chéng)中,一定是多模态的(de),搜狗提倡的技术主张,使(shǐ)机器(qì)同传和同类(lèi)产品拉开了一代之差。他们还是以同传为主,搜狗已经从语音跨到了多模态,并(bìng)把对于知识(shí)和语音(yīn)的理解放进去,使(shǐ)同传开始具(jù)备一定的认知能力。

    而搜(sōu)狗在(zài)AI语音商业化的(de)进程,最(zuì)终(zhōng)的指向(xiàng)还是消(xiāo)费者端。未来各种各样的场(chǎng)合都可能用(yòng)到(dào)搜狗同传的技(jì)术,通过同(tóng)传(chuán)打磨(mó)的能(néng)力也可以反向用于C端产品。

    一直以来,人工智能技术只能(néng)在展示在(zài)实验室中,随着深度(dù)学习等技术的研究成熟,人工(gōng)智(zhì)能(néng)技术加持的(de)产(chǎn)品也逐渐开始落(luò)地。

    多模(mó)态技术未来发展

    很多公司都意识到多模态(tài)技术重要性(xìng),并将研(yán)究(jiū)成果(guǒ)落地到各种应用中,比如腾讯、优酷等视频(pín)网站平台,快手(shǒu)等短视频平(píng)台都(dōu)将多模态技术应用于内容理解上,在获取用(yòng)户和加(jiā)强与用户的互动交(jiāo)流上(shàng)起到了重要作用。

    目前(qián)关于多(duō)模态的研究课题(tí)还(hái)是要从产(chǎn)品(pǐn)和(hé)实际需求倒推功能,这涉(shè)及到异构数据融合的问题。

    多模态表达,在语义上(shàng)如(rú)何进行对(duì)齐,提取(qǔ)同(tóng)一需求的多模态特征,如何更好地(dì)跨(kuà)越(yuè)语义的鸿沟,异构数据如(rú)何融合,都是多模态(tài)技(jì)术会遇到的问题。

    随(suí)着精度的逐步提高,搜狗同(tóng)传所(suǒ)采用(yòng)的(de)AI技(jì)术,未来还将有更广阔(kuò)的的应用空间,赋予我们更多的可能性。比如,实时私人(rén)翻译(yì)乃至文学作品的译制(zhì),可以让我们足不出(chū)户(hù),享受(shòu)第一(yī)手国际作品(pǐn)的字(zì)幕体(tǐ)验(yàn)。

    而在(zài)跨国(guó)界、跨(kuà)领域等项(xiàng)目(mù)合作方面(miàn),逐渐实现无缝对接,能够显著(zhe)提高整体的工程协作效率。

    结尾:

    当(dāng)然必须要承认,无(wú)论(lùn)是搜狗同传还是其他玩家,大家目前距离(lí)顶级同(tóng)传的水准还有很长的路(lù)要走,目前的机器同传能力(lì)和顶(dǐng)级(jí)人工(gōng)同传相比(bǐ),仍存在不(bú)小的差距。

    关键词:




    AI人工智能网声(shēng)明:

    凡资讯(xùn)来源注明(míng)为其他(tā)媒体来源的信息,均为转载自其他媒(méi)体,并不代表本网站赞(zàn)同其观点,也不代表本网站(zhàn)对其(qí)真实性负(fù)责。您若对(duì)该文章(zhāng)内容有任(rèn)何疑问或(huò)质疑(yí),请立即与网站(www.zhuzhou.jiaxing.zz.pingliang.ww38.viennacitytours.com)联(lián)系,本网站将(jiāng)迅速给您回(huí)应并做处理。


    联系电话:021-31666777   新闻、技术文章投(tóu)稿QQ:3267146135   投稿邮箱:syy@gongboshi.com

    精选(xuǎn)资讯(xùn)更多

    相关资讯更多(duō)

    热(rè)门搜索(suǒ)

    工博士人工智能网
    开云
    扫描二维码关注微信
    扫码反馈

    扫一扫,反馈当前(qián)页面

    咨询反馈
    扫码关注

    微信(xìn)公众号

    返回(huí)顶部

    开云

    开云

    相关信息

    "开云 开云咨询为企业提供一站式企业咨询服务。

    更新时间:2025-07-16 00:46 来源:m.zhuzhou.jiaxing.zz.pingliang.ww38.viennacitytours.com