搜狗展示唇语辅助语音识别工作原理：准确率显著提升

2017 年年底，搜狗在乌镇“世界互联网大会”上发布了通过唇语识别辅助提升语音识别准确率的初步成果，成为业内首家。近日，搜狗宣布发展一年多的唇语识别模型的准确率，跟最初的 50%~60% 相比已有很大提升，并达到了可以将原本独立发展的唇语和语音识别结合起来，形成“多模态”识别的水平。

搜狗于 2016 年 4 月 22 日捐赠1.8亿元给王小川的母校清华大学，联合成立“清华大学天工智能计算研究院”，致力于人工智能领域的前沿技术研究。本次公布的语音和唇语的多模态识别正是由该联合研究院主导。

相关论文《基于模态注意力的端到端音视觉语音识别》在今年 5 月 12-17 日召开的国际声学、语音与信号处理会议（ICASSP）发表，这是由 IEEE 主办的国际语音识别、信号处理学界的顶级会议。

搜狗方面对国内科技媒体“量子位”介绍了论文主要内容。据介绍，将唇语识别加入单纯的语音识别，需要克服两个主要问题：一是协调音视频的不同帧率（一般音频为 100fps，视频为 24fps），二是合理确定音频和唇语内容对整个识别结果分别贡献多大比例。

显然，这一比例绝不应该是固定下来的。有的时候，语音非常清晰可辨，此时视频内容搞不好反而带来干扰；另一些时候，语音比较模糊，这时才应该合理提升唇语识别的比重。搜狗采用名为“基于注意力的编码器 / 解码器”的方法来动态确定当前时刻混用唇读和语音识别的比例。

搜狗方面表示，该论文去年 6 月立项，10 月完成投递，其中接近一半时间用来处理比例问题。

在语音清晰可辨的环境中，视频的“注意力权重”约为 35.9%。当信噪比为 0dB（即噪音音量跟信号声音差不多大）时，视频的“注意力权重”提升到接近40%，此时“多模态识别”的准确率相比清晰环境提高了30%。

在一段演示中，人们模拟在地铁运行环境中说话，同时记录下口型。单纯识别语音的结果是“北京今天天气走”，单纯识别唇语的结果是“嗯北京今天天气怎么样”，合起来即可得到正确结果“北京今天天气怎么样”。

语音交互技术中心首席科学家陈伟预计，结合视频读唇的语音识别可能会用于未来的搜狗手机输入法，及结合了摄像头的汽车车机导航等环境（也就意味着届时输入法将请求摄像头权限以提升识别准确率）。

更具体的论文细节可以从原报道获得。

相关文章:

搜狗录音翻译笔开箱体验：覆盖18国语言支持同声传译

最新资讯