结婚证的照片智能⾳箱⼯作全流程
今天(已经是两周前)被问到两个问题,答的很不好
1.⼿机屏幕亮度⾃动调节功能,若你是第⼀个要做这个功能的会怎么做?亮度调节反应是瞬间还是延迟
——应该从⽤户实际使⽤场景出发,包括极端场景。总之这个问题回答的不好,没思路,迫不及待的请教了对⽅
2.智能⾳箱⼯作全流程,从语⾳下达指令到反馈语⾳结果
——这个答的不够详细,不应该。回答问题似乎应该掌握个度,不需要把所有知道的东西都讲,也不能讲的太笼统,前提是得了解的⾜够有深度才能掌握度,⾄于如何判断度要把握到什么程度,⽬前还⽆法提供很好的⽅法,待修炼。
一般家长意见怎么写下⾯介绍智能⾳箱⼯作全流程
单轮对话,多轮对话,任务型对话和问答型对话在NLP部分会略有些差异,以下以任务型多伦对话为例介绍⾳箱⼯作的全过程
⼀、语⾳检测 VAD(voice activity detection)
检测出⾳频信号语⾳段的起始位置,分离出语⾳段和⾮语⾳段,这样后续只需处理语⾳段,减轻后续
处理的计算量
⽅法:
1、阀值:检测⾳频和噪⾳的阀值,⽐较常⽤
2、分类器:机器学习的算法,对语⾳和⾮语⾳进⾏⼆分类。已经优化的分类法也⽐较常⽤
3、模型:通过全局信号判断语⾳段和⾮语⾳段,难以在本地部署,成本较⾼,应⽤较少
⼆、声学回声消除 AEC(Acoustic echo cancellation)
⾳箱扬声器⼯作时,从麦克风搜集的语⾳中,去除⾃⾝播放的声学信号,这是双⼯模式的前提。(双⼯指的是同时进⾏双向通信,也就是说⾳箱在播放的过程中也在进⾏语⾳检测,⽤户可以打断⾳箱说话)
三、去混响
⼈声的多次反射,延迟的语⾳叠加对语⾳识别是致命的障碍,去混响就是去掉反射的声⾳
⽅法:
1、去混响算法
2、对语⾳识别的声学模型加混响训练
四、判断是否是唤醒词
若不是唤醒词,则丢弃,若是唤醒词则继续进⾏语⾳检测和下⾯的操作
五、声源定位 DOA(Direction of Arrival Estimation )
作⽤:
1、⽅位灯展⽰,增强交互效果
2、作为波束形成的前导任务
⽅法:
1、基于波束扫描的声源定位
2、基于分辨率率谱估计的声源定位
既什么又什么既什么又什么造句3、基于到达时间差
六、降噪
提⾼信噪⽐,语⾳增强
⽅法:
1、⾃适应LMS
2、维纳滤波算法
继续语⾳识别
七、语⾳识别 ASR
黄子韬发文简单理解,就是⾳转字。
图中的这些技术和环节串起来就是语⾳识别的框架和结构。
⼋、⾃然语⾔处理
⽂本 -> 预处理(分词、去停⽤词) -> 特征⼯程 -> 机器学习算法 -> 标签
九、对话管理
理解语⾔中的任务,提取意图和实体
⽐如,⽤户说“播放⽑不易的消愁”
技能:⾳乐技能
衣服染去除小窍门任务:播放歌曲,停⽌播放,收藏歌曲等等
意图:播放歌曲,⽽不是切换歌曲,调节⾳量等等与放歌曲有关的其他操作
实体:歌⼿名(⽑不易),歌曲名(消愁)
⼗、调取第三⽅控制接⼝
⽐如⾳乐的歌⼿和歌曲需要从第三⽅⾳乐软件中调取
⼗⼀、⾃然语⾔⽣成
识别出⽤户的意图和实体后,调取对应的回复内容
⼗⼆、语⾳合成 TTS
简单理解就是将回复的内容⽂字转换成语⾳
康熙来了 曲家瑞
简单讲⼀下语⾳合成技术的引进。最早是波形拼接,从每个⼈的发⾳,你的发⾳是什么样⼦,然后把这个波形拼接,然后是HMM+GMM的合成,然后再到神经⽹络的参数合成,然后WaveNet合成。WaveNet合成的效果⾮常接近真⼈录⾳的效果,MOS是⼀个对语⾳合成的指标,产⽣的声码器能够做到4.2已经很好了,真⼈的录⾳效果普遍在4.5,如果做的好在4.5以上,WaveNet合成看到⽐较好的效果是在4.52,⾮常接近真⼈的录⾳效果。
⽬前语⾳合成技术已相当成熟。
应⽤:很多客户提到,希望有语⾳的定制化,为什么?对⼤型公司来说,如果做⼀个智能冰箱或者智能硬件,这个声⾳对于他们来说,跟品牌的logo⼀样,希望⽤户听到的声⾳,就知道是这个品牌的⾳响,或者是这个品牌的应⽤。不希望跟别⼈共享。有这种类似的需求,是很常见的,这个需求对语⾳合成的技术也有挑战。有的⼚商可以请到⼀些明星到录⾳棚录⾳,录⾳的质量决定了合成的效果。之前做语⾳合成需要到录⾳棚录8个⼩时⾳,才能有⽐较好的效果,现在这个门槛不断在降低。
⼗三、声纹识别
以上基本是按⾳箱的实际⼯作顺序讲解,下⾯补充说⼀下声纹识别,不⽤声纹识别也不影响⾳箱的正常⼯作。
声纹识别可以区分声⾳特征,相当于更⾼⼀级的语⾳识别
应⽤⼀:在智能车⾥⾯有很多的功能需要⼈的发⾳媒介来控制命令的时候声纹就很重要。开⼀个车门,车上有⼀个⼩孩,突然哭闹,下⼀个不合适的指令,若区别不出来这个⼈,是不合适的。或者有⼀些不当的操作,可以通过声纹来做,通过声⾳来做对⼈的识别和认证的过程。声纹识别其实在未来的应⽤场景⽐较热门,实际应⽤当中遇到⼤的挑战点是什么?很多其他的⽣物识别靠⼈脸或指纹这类⽐较稳定的特征,可是声纹不稳定,⽐如声⾳哑了,怎么能够在变化⽐较明显的⽣物特征上做识别是⼀个很⼤的挑战。
应⽤⼆:在传统的界⾯交互中,各类产品都强调千⼈千⾯个性化推荐,那在语⾳交互⾥⾯怎么做到个性化推荐呢?声纹识别。因为声纹识别可以判断⼈的⾝份,进⽽实现个性化推荐。
(⽐较粗略,细节陆续填充)