Hi!下午好!欢迎访问互联网
当前位置:主页 > 智能

谷歌开发AI读唇软件准确率比人类高3倍

时间:2019-01-28 20:42:11| 来源:| 编辑:笔名| 点击:0次

谷歌开发AI“读唇”软件 准确率比人类高3倍

TNW中文站 11月24道

谷歌人工智能部门DeepMind正与牛津大学研究人员合作,希望开发出全球最先进的读唇软件,可能比人类的读唇能力还要出色。

为实现这一目标,研究人员选取了数千个小时的BBC电视短片,上传到一个神经络上,对其读唇软件进行训练,即根据主播嘴部运动来识别其播报内容。

结果,这款读唇软件的唇读准确率高达46.8%

谷歌开发AI读唇软件准确率比人类高3倍

。相比之下,基于同样的测试内容,人类唇读的准确率只有12.4%。

这项研究基于牛津大学之前的一款人工智能读唇系统LipNet。LipNet能将视频中人物的嘴部运动与其台词进行匹配,准确率高达93.4%。当然,该准确率主要基于一些相对简单的句子。

DeepMind这款读唇软件名为看、听、分析与拼写(Watch, Listen, Attend, and Spell),与LipNet不同的是,DeepMind的软件致力于更难的长句。

为此,谷歌神经络观看了来自BBC的约5000个小时的流行电视节目,包括《晚间》和《提问时间》和《今日世界》等,共包含了11万个不同的句子,1.75万个不同的单词。相比之下,测试LipNet的句子只包含了51个不同的单词。

谷歌对此表示:这项研究的目的是识别人们谈话时的短语和句子,有声音或没有声音都能识别。与之前的相关研究不同,它们仅限于有限数量的单词或短语,而我们的研究针对无限制的自然语言长句。

DeepMind团队认为,他们新开发的这款软件除了能帮助听力损伤人群,还支持其他一系列应用,包括注释电影、利用唇部动作与Siri和Alexa等数字助理通信等。(编译/谭燃)

郑重声明:中国IT研究中心站刊登/转载此文出于传递更多信息之目的 ,并不意味着赞同其观点或论证其描述。中国IT研究中心不负责其真实性 。