核心诉求
随着越来越多人习惯使用语音输入,语音与文字一样变得不可或缺。通过爱奇艺语音搜索关键词分析发现,用户具有高频次、低龄化、分地域的属性特征,为了更好的满足不同层次的语音用户搜索需求,播放下载视频智能化,需要为爱奇艺用户提供一套不同场景下精确的语音识别服务。
解决方案
百度语音识别解决方案:通过访问用户麦克风,收集用户语音数据、上传至服务器,识别服务分析,转译成文字等技术能力,完成字符串输出,提供爱奇艺使用。而ASR技术解决方案的关键技术难点,在于解决噪音、多人同时说话、远景识别、回声处理等。
现在,解决了爱奇艺语音搜索场景下的痛点:
去噪:在繁杂的环境下能较好地去除噪声。
性能:在用户搜索交互过程中实现了流式处理,边说边译。
鲁棒性:对于不同口音的用户输入,能够实现精准的识别。
具体实现过程如下图: