新型冠状病(bìng)毒肺炎疫情爆发以来,相关话(huà)题(tí)热度持续高涨。如何在纷繁芜杂的信息中理清头(tóu)绪?为(wéi)便于(yú)疫情(qíng)防控和宣传工作的开展,近日,清华大学人工智能研究院、RealAI共同(tóng)研发推出(chū)“新冠肺炎疫情AI话题分析平台”,帮助相关(guān)部门和公众更好地了(le)解疫情(qíng)实时(shí)动态。
据介绍,该平(píng)台(tái)通过对多渠道海量媒体信息进(jìn)行自动抓取采(cǎi)集、识(shí)别分(fèn)析,解决(jué)了传统信息检索过(guò)程中因消息源头繁杂、消息过多、检索意图(tú)不明确而产生的困扰。同时,基于(yú)大数据分析和AI建模,自动识别出近期(qī)热点(diǎn)话题、新(xīn)闻追踪和话题导(dǎo)向、地区关注度变化,第一时间展示全网话题最新动态,满足(zú)用户对疫情舆情监测的需(xū)求。
在底(dǐ)层(céng)算法支(zhī)持上,该平台基于清华大学人工智能研究(jiū)院(yuàn)、计算机系(xì)推出(chū)的WarpLDA主题(tí)提取(qǔ)算法研(yán)发。基于蒙特卡洛EM算法,WarpLDA在访存效率、并行度方面相比传统的Gibbs采(cǎi)样(yàng)算法更有优势,可用于上亿级别文本的主题提(tí)取。该成果最(zuì)早首(shǒu)发于(yú)数据库领域顶级国际学术(shù)会议VLDB上。
RealAI首(shǒu)席执行(háng)官(guān)田天(tiān)认为,不同(tóng)于2003年非(fēi)典等重(chóng)大公共(gòng)卫生突(tū)发事件,互联网(wǎng)成为这(zhè)次疫情主(zhǔ)要的“信(xìn)息源”平台,传播模式更是基于(yú)人手一(yī)机的“自媒体”,信息流的爆(bào)发不仅降低了大众获(huò)取信息的“信噪比”,更(gèng)是滋生了不同程(chéng)度的谣言(yán)。可以说(shuō),传播速(sù)度(dù)之快(kuài)、话题数量之大、更(gèng)新(xīn)变化之迅速都(dōu)对疫(yì)情信息的有效传达提出了更高的要求。
“在这场没有硝烟的战争中,我们每个人、每个(gè)组(zǔ)织(zhī)都无法(fǎ)独善(shàn)其身。”田天表(biǎo)示,RealAI希(xī)望以自身算法、优(yōu)势技术为(wéi)依托,从内容(róng)侧打造防疫战(zhàn)线,发挥信息战“疫”价(jià)值,为(wéi)抗击疫情贡献力所能及的力量。