语音识别技术是如何突破的?搜狗走了一条声音和视觉相结合的道路。

责声明">
从最初的语音交互到嘴唇识别,到机器翻译,搜狗的二重身(合成锚),再到声音视觉识别,搜狗的技术进步可以描述为一个逐步的过程。背后是搜狗坚持“自然交互知识计算”概念下的技术难点,使人机交...

从最初的语音交互到嘴唇识别,到机器翻译,搜狗的二重身(合成锚),再到声音视觉识别,搜狗的技术进步可以描述为一个逐步的过程。背后是搜狗坚持“自然交互知识计算”概念下的技术难点,使人机交互更加高效和自然。

有一个像科幻电影《Her》那样的虚拟助手(女朋友),这可能是人们对人工智能的美好憧憬,尽管这一天可能还很遥远。为了实现这一技术突破,该行业在过去几年中更加关注语音交互的各种问题。在过去的两年中,一些技术先驱已经开始尝试通过结合语音、视觉、文本和其他信息(即多模态)来促进人机交互技术的升级。多模态交互也成为学术界和工业界的热门话题。搜狗也是多模态交互技术的先驱。它于2017年开始探索嘴唇识别技术,并于2018年推出了一款合成虚拟锚。近日,搜狗与清华大学自然科学技术学院联合发表了《基于模态注意力的端到端音视觉语音识别》论文,这是多模态识别领域的又一步。它将声音和视觉结合在一起,提高了语音识别的效果,并被列入了世界顶级的声学、语音和信号处理会议ICASSP2019。从最初的语音交互到嘴唇识别,到机器翻译,搜狗的二重身(合成锚),再到声音视觉识别,搜狗的技术进步可以描述为一个逐步的过程。背后是搜狗坚持“自然交互知识计算”概念下的技术难点,使人机交互更加高效和自然。噪声环境下语音识别的另一种方法随着人工智能的发展和智能说话人的推广,语音交互逐渐成为智能硬件的标准。语音识别作为语音交互前端的关键环节,近年来也得到了快速发展。许多公司在安静的环境中可以达到98%以上的识别率。然而,一旦进入嘈杂的场景,语音识别的准确性将大大降低。至于智能硬件,目前业界主流的方法是通过麦克风阵列处理信号,并通过硬件消除噪声。然而,当环境复杂且噪声很大时,语音识别仍然有一个很大的瓶颈。视觉人工智能能用来解决这个问题吗,特别是在嘈杂的环境中,视觉会成为语音识别精度的有效补偿吗?由于视觉识别方法不受环境噪声的影响,在嘈杂的环境中,人们即使听不清楚对方的意思,也能普遍理解说话者的意思。正因为如此,搜狗公司和清华大学自然工程学院去年开始尝试语音和视觉相结合的方法,即声音和视觉的多模态识别,以提高语音识别的效果。据搜狗称,这项技术研究只花了4~5个月就开始了,论文也提交了。这一快速进步与搜狗在语音识别和视觉识别领域的积累密切相关。2016年,搜狗开始进行基于语音的人机交互,积累了语音识别、语义理解、机器翻译和语音合成等全链接语音技术。2017年底,搜狗推出了“黑色技术”嘴唇识别技术,这在当时是一个领先的行业。当时,嘴唇识别对日常表达的准确率可达50%~60%,对命令词的准确率可达85%~90%,为早期的嘴唇识别做了技术储备。这一次,搜狗已经取得阶段性成果的声视觉多模态识别技术,是基于两项关键技术:语音识别和嘴唇识别。“通过两者的有效结合,在嘈杂的环境中,语音识别的准确率可以提高30%以上,”搜狗语音交互中心技术主任陈伟说。利用模态注意来提高识别效果并不容易实现声音和视觉识别不同模式的融合,因为声音和视觉的特征是非常不同的。然而,简单地拼接这两种模式将导致信息丢失,视觉信息对听觉信息的改善有限。搜狗提出了一种模态注意方法,根据不同模态信息的重要性进行动态调整和融合,以获得更鲁棒的融合信息。清华大学自然科学与技术学院的周磐解释说,视听信息融合过程中需要解决两个问题。第一是视听信息的长度不相等,第二是贡献不相等。具体来说 因此,音频和视频的贡献率需要根据环境动态调整。搜狗提出的模态注意端到端声音视觉模型能够有效融合音视频信息,然后根据具体环境动态调整选择声音或视频作为主要识别对象,从而获得更好的识别效果。具体而言,通过第一层常规注意力(或内容注意力)获得每个解码时刻对应对的听觉和视觉上下文向量。这两个上下文向量在内容上相互对齐,这也解决了上述信息长度对齐不相等的问题。对于不同贡献度的问题,如上图所示,采用第二层注意力即模态注意力,根据声音和视觉对识别的贡献度动态确定两种模式的融合权重,从而获得包含声音和视觉信息的融合上下文向量。在演示中,搜狗模拟了安静、地铁、大厅等环境,并提供了语音识别、嘴唇识别和混合识别三种模式。可以观察到,在安静的环境中,语音识别的准确性高于嘴唇识别。在噪声环境下(地铁),嘴唇识别的准确率明显高于语音识别。在混合识别模式下,识别效果可以最大化。例如,来自搜狗的研究员杨雯雯用混合识别模式在嘈杂的场景中做了一个演示,并说:“打电话给爸爸。”可以看出,语音识别和嘴唇识别都存在错误,两者的有机结合显示出准确的识别效果。在商业化的未来,陈伟表示,搜狗可能会率先在搜狗输入法上尝试视听识别技术,今年可能会看到一些成果。此外,搜狗还与几家汽车工厂合作,积极开展声、视觉识别技术的登陆。从目前的应用场景来看,无论是在智能硬件领域还是智能家居物联网领域,单纯的语音效果实际上并不理想,在复杂的环境中单纯依靠硬件来提高语音识别效果的方式也遇到了一定的瓶颈。同时,多模态视听识别技术的使用可能能够将现有的人工智能效果提升到一个新的水平,从而创造更大的商业价值。

  • 发表于 2019-05-23 14:40
  • 阅读 ( 121 )
  • 分类:黑客接单

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
不写代码的码农
黑客

1037 篇文章

作家榜 »

  1. 黑客 1037 文章