matlabswitch_matlab switch case-谷歌关键词-猫先森网络

　　在已往的一年中，语音辨认再次取得非常大的突破。IBM、微软等多家机构相继推出了本身的 Deep CNN 模子，提拔了语音辨认的正确率；Residual/Highway 网络的提出使我们可以把神经网络练习的更加深。

　　而诸如 CTC、Low Frame Rate、Chain 模子等粗粒度建模单位技能使得语音辨认正确率得到提拔的同时，解码速率也可以大大加快。

　　本期雷锋网硬创公开课特邀供职于阿里巴巴 iDST 的语音专家薛少飞博士，从学术的角度回顾已往一段时间里语音辨认技能的盼望。

　　高朋先容：

　　薛少飞，阿里巴巴 iDST 语音辨认专家，中国科学技能大学博士。现负责阿里声学模子研究与应用：包罗语音辨认声学建模和深度学习在业务场景中的应用。博士期间的研究方向为语音辨认语言人自顺应，提出基于 Speaker Code 的模子域自顺应方法，在语音相干的集会会议和期刊上发表论文十余篇。

　　本期公开课的分享重要包罗三大部分：

　　深度神经网络声学模子发展回顾：简单回顾深度神经网络技能在语音辨认声学模子中的应用汗青；

　　前沿声学模子技能盼望：近期几个比力故意思的声学模子技能盼望，包罗 Deep CNN 技能、Residual/Highway 网络技能和粗粒度建模单位技能。固然这里并没有把全部的新技能盼望都席卷进来，比如 Attention 技能。只是以这三条线路为例看看语音辨认声学模子技能的盼望和将来的发展趋势。

　　阿里巴巴的语音辨认声学模子技能。

　　一、深度神经网络声学模子发展回顾

　　回顾语音辨认技能的发展汗青可以看到，自从上世纪 90 年代语音辨认声学模子的区分性练习准则和模子自顺应方法被提出以后，在很长一段内语音辨认的发展是比力迟钝的，语音辨认错误率的那条线不停没有显着的降落。直到 2006 年 Hinton 提出深度置信网络（DBN），促使了深度神经网络（DNN）研究的复苏。

　　2009 年，Hinton 将 DNN 应用于语音的声学建模，在 TIMIT 上得到了当时最好的结果。2011 年底，微软研究院的俞栋、邓力两位老师又把 DNN 技能应用在了大词汇量连续语音辨认任务上，大大低落了语音辨认错误率。以后以后基于 DNN 声学模子技能的研究变得非常火热。微软客岁 10月发布的 Switchboard 语音辨认测试中，更是取得了 5.9%的词错误率，第一次实现了和人类一样的辨认程度，这是一个汗青性突破。

　　那么什么是 DNN 的？着实标准的 DNN 一点也不秘密，它和传统的人工神经（ANN）在布局上并没有本质的区别，只是 ANN 通常只包罗一个隐层，而 DNN 则是通常包罗至少 3 层以上的隐层，通过增长隐层数量来举行多层的非线性变更，大大的提拔了模子的建模本领。

　　这是基于 DNN 的语音辨认体系框架，相比传统的基于 GMM-HMM 的语音辨认体系，其最大的改变是采取 DNN 更换 GMM 模子对语音的观察概率举行建模。

　　相比传统 GMM 模子我以为有两点黑白常紧张的：

　　1.利用 DNN 不必要对语音数据分布举行假设。

　　2. DNN 的输入可以是将相邻语音帧拼接形成的包罗时序布局信息的矢量。

　　当时练习 DNN 的广泛做法是先举行无监督的预练习，而后举行有监督的调解，厥后人们发现当数据量非常大的时间无监督的预练习并不是须要的，固然这是后话了。

matlabswitch_matlab switch case

　　促使 DNN 的研究在当时重新鼓起尚有一个非常紧张，而且我个人以为是最核心的因素，就是盘算本领的提拔。

　　从前要在 CPU 上练习 DNN 黑白常慢的，做一个实行大概必要好几周乃至几个月，这是不能忍受的，随着 GPU 的出现这种环境发生了变革，GPU 非常得当对矩阵运算举行加快，而 DNN 的练习终极都可以被拆解成对矩阵的操纵，两者天然调和。

　　而今随着 GPU 技能的不绝发展和进步，我们可以或许练习数据量更大、网络更深、布局更复杂的模子，这才有了深度神经网络技能的敏捷发展。

　　LSTM 模子信托各人都不陌生，它一种特别的循环神经网络（RNN）。语音辨认原来就是一个时序建模题目，以是非常适实用 RNN 来举行建模。

　　但是简单的 RNN 受限于梯度爆炸和梯度消散题目，比力难以练习。而 LSTM 通过输入门、输出门和忘记门可以更好的控制信息的活动和转达，具有黑白时影象本领，并在肯定程度上缓解 RNN 的梯度消散和梯度爆炸题目。固然它也有不敷之处，盘算复杂度相比 DNN 大幅增长，而且由于递归毗连的存在难以很好的并行。

　　BLSTM 进一步提拔了该类模子的建模本领，相比 LSTM 还思量了反向时序信息的影响，也即“将来 ”对“如今 ”的影响，这在语音辨认中也黑白常紧张的。

　　固然这种本领的代价就是模子盘算复杂度进一步加大，而且通常必要整句举行训练：GPU 显存斲丧增大-并行度低落 -模子练习更慢，别的在实际应用中还存在及时性题目。

　　CTC 技能在已往的一段时间内也非常的火热，起首要阐明的是 CTC 并不是模子的变革，而是优化的目标函数发生了改变，DNN、LSTM、CNN 都可以和 CTC 相连合。

　　传统的深度神经网络声学模子的练习过程必要先对练习数据文本序列做 Alignment 得到分类的“硬讯断 ”，之后以这种“硬讯断 ”的分类为目标练习神经网络，网络优化的目标并不是终极要辨认的结果。和传统的深度神经网络声学模子相比 CTC 的优化目标是一种所见即所得的优化目标，你要练习的目标就是你想要得到的结果。

　　传统的深度神经网络声学模子建模单位通常是 state 级的，而 CTC 的建模单位则是 phone 一级乃至是 character 的，state 级反而不好，这种建模粒度的变革带来一个长处就是语音数据的冗余度增长了，相邻的语音帧原来就会很像并大概来自于同一个 phone，那么如今就不必要这么多帧数据来建模一个句子。

　　通过拼帧降采样的方法可以低落数据的总帧数，在不影响辨认正确率的环境下加快网络盘算的速率。CTC 的另一个非常紧张的贡献是引入了“Blank”空缺，空缺的引入克制了易肴杂帧的“逼迫 ”对齐。而且使得练习后的网络输出出现 “尖峰”状态，大段的 Blank 使得解码时通过 beam 的机动调解，可以加快解码速率。

　　语音辨认开源平台先容与对比

　　语音辨认范畴有非常多的开源工具，传统的语音辨认开源工具像 CMU SPHINX 体系，是基于统计学原理开辟的第一个“非特定人连续语音辨认体系 ”；剑桥语音辨认组推出的 HTK 工具包是 GMM-HMM 期间最为盛行的语音辨认工具，我刚打仗语音辨认就是从 HTK 开始的。

　　几年前推出的 kaldi 严格来讲并不十分“传统”，也是比力新而且在不绝更新的开源工具，如今应该也是利用人数最多的语音辨认开源工具。

　　近两年来很多深度学习开源框架涌现了出来，像 Theano、 CNTK、TensorFlow 等，接下来我会对传统的语音辨认工具和新的深度学习开源框架做一个对比，那么我就简单从几个我比力关心的维度来抛砖引玉看看 kaldi、CNTK 和 TensorFlow 的异同。

　　在拓扑底子方面，kaldi 的 nnet1 和 nnet2 是以层计划为底子的，也即当你新增长一种神经网络层时必要本身界说它的布局，都有哪些变量，正向怎么算，反向偏差怎么传播等等，而且过于复杂的毗连方式很难支持。

　　而 kaldi 的 nnet3 和 CNTK 以及 TensorFlow 都是以图布局为底子的，通过设置文件实现对网络毗连方式的界说，数据就像流水一样在你界说的网络图中游走，并本身实现偏差的反向传播，它的长处是你可以专注网络拓扑布局的计划，而不消为网络盘算的细节而费心，特别是偏差的反向传播。

　　但这也带来一个题目，尤其是对初学者而言，会造成只是在计划网络长成什么样子，但并不清楚此中的实现细节。初学者最很多多少推推公式，对打下一个坚固的底子绝对有长处。

　　在语音辨认别的工具支持方面，kaldi 有全套的语音辨认工具，包罗解码器、创建决定树、GMM 练习等等，而 CNTK 和 TensorFlow 在这方面并没有特别的支持，值得一提的是 CNTK 里提供了把 kaldi 数据处理惩罚成为 CNTK 数据格式的工具，使的用 kaldi 的人也可以很快上手 CNTK，各人不妨试一下。

　　末了一个我比力关心的因素就是是否支持多机多卡，由于随着数据量和模子复杂度的不绝攀升，仅仅用一个 GPU 很难满意模子练习的必要，必须利用多个 GPU 来加快练习。在这方面貌前 kaldi、CNTK、TensorFlow 都已经支持。

　　末了我的发起是对于语音辨认的初学者和低年级的研究生来讲，用 kaldi 入门学习算法和实践理论知识是比力好的选择，对于高年级研究生和具有肯定年限的从业职员来讲，就看本身的喜好了，各人都是殊途同归，工具不是决定性的，数据、算法和模子才是。

　　二、前沿神学模子的技能盼望

　　接下来先容一下 Deep CNN 技能、Residual/Highway 网络技能和粗粒度建模单位技能。客岁有多家机构都推出了本身的 Deep CNN 模子，像 IBM、微软等，我这里以 IBM 的 Deep CNN 为例，一起探究一下到底哪些关键因素使得 Deep CNN 可以或许取得这么好的结果。

　　着实 CNN 被用在语音辨认中已经不是一天两天了，在 12、13 年的时间 Ossama Abdel-Hamid 就将 CNN 引入了语音辨认中。

　　当时候的卷积层和 pooling 层是瓜代出现的，而且卷积核的规模是比力大的，CNN 的层数也不是特别的多，重要是用来对特性举行进一步的加工和处理惩罚，使其能更好的被用于 DNN 的分类。

　　厥后随着 CNN 技能在图像范畴的发展，环境渐渐出现了变革，人们在图像范畴的研究中发现多层卷积之后再接 pooling 层，减小卷积核的尺寸可以使得我们可以或许练习更深的、结果更好的 CNN 模子。相应的方法被鉴戒到了语音辨认中，并根据语音辨认的特点举行了进一步的优化。

　　IBM 的研究职员在 16 年的 ICASSP 上发表文章，称利用 3x3 的小卷积核和多层卷积之后再接 pooling 的技能可以练习出 14 层（包罗全毗连）Deep CNN 模子。

　　在 Switchboard 数据集上相比传统的 CNN 利用方法可以带来相对约 10.6%WER 降落。小尺寸的卷积核和多层卷积之后再接 pooling 的技能是使 Deep CNN 可以或许乐成的关键点。

　　接下来先容一下 Residual/Highway 网络以及它们如今在语音辨认中的应用环境。

　　Residual 网络会这么着名得益于 MSRA 的 152 层让人“疯狂”的深度神经网络，依附着它 MSRA 在 2015 ImageNet 盘算机辨认挑衅赛中以绝对上风得到图像分类、图像定位以及图像检测全部三个重要项目标冠军。

　　在公开的论文当中，作者具体解读了他们的“心路进程 ”。

　　研究职员发如今深度神经网练习过程中总是会出现”Degration Problem”，即当网络深度到达肯定程度以后，随着网络深度的增长 training error 将不降反增，而且这不是由于过拟合引起的。

　　一样平常来讲我们以为一个浅层网络 A 叠加几层成为网络 B，假如叠加的几层权重都是单位矩阵，那么 B 的性能至少不会比 A 差，但实际并非云云，网络本身很难学习到这种变更。

　　而相比与学习目标函数而言残差更轻易学习，于是提出了一种 residual learning 的布局，增长了一个越层的短毗连。我的明白是这种短毗连一方面克制了前向盘算中非线性变更对数据的太过加工，另一方面在偏差反向传播时通过直连通路，可以让偏差有路径直接回传，克制梯度消散。

　　约莫稍早，Srivastava 在 arxiv 上传了他的 Highway 网络工作，在 Highway 网络中一个隐层节点的输出不再单单是输入通过非线性变更后的数值，而是变成了通过 Transform gate 和 Carry gate 对非线性变更后的数值和输入举行加权得到的结果。Residual 网络可以被当作是 Highway 网络的一种不额外增长参数量的特例。

　　Residual/Highway 网络这么有结果，语音辨认范畴的研究职员固然也会关注并利用。我来举几个例子，在“Highway Long Short-Term Memory RNNs for Distant Speech Recognition”中作者提出 Highway LSTM 布局，引入了一种 carry gate，Carry gate 控制当前层 cell 状态盘算有多少来自于前一层的 cell 状态， carry gate 的盘算又取决于当前层的输入、当前层前一时候的 cell 状态和前一层当前时候的 cell 状态。通过这种模子布局实现了信息在模子内部更好的跨层活动。

　　在 ”Multidimensional Residual Learning Based on Recurrent Neural Networks for Acoustic Modeling”中作者将 Residual 的概念应用到 LSTM 模子中，并在 TIMIT 和 HKUST 两个数据集上验证了实行结果。

　　在 ”Renals.Small-footprint Deep Neural Networks with Highway Connections for Speech Recognition”中作者对比了 Residual DNN 和 Highway DNN 在语音辨认上的结果，得到的结论是：” residual networks are more powerful to train deeper networks compared to plain DNNs, particular with ReLU activation functions which reduce the optimisation difficulty. However, highway networks are more flexible with the activation functions due to the two gating functions that control the follow of information.”

　　下面是粗粒度建模单位技能，Low frame rate 技能我会放到背面连合阿里巴巴的声学模子技能举行阐明，先来看一下 Chain 模子。Chain 模子是 kaldi 的作者 Daniel Povey 近期力推的工作，它利用的也是 DNN-HMM 架构，表中我列出了 chain 模子和传统的神经网络声学模子建模的差别点。

　　在建模单位方面，传统神经网络声学模子的建模单位一样平常是 3 状态大概 5 状态的 CD phone，而 chain 模子的建模单位则是 2 状态，此中 sp 是最重要用来表征该 CD phone 的状态，而 sb 则是该 CD phone 的“Blank”空缺，空缺的概念着实和 CTC 中的很相似，只是在 chain 模子中每一个建模单位都有本身的空缺。

　　在练习方法上，传统神经网络声学模子必要先举行 Cross-Entropy 练习，后举行区分性准则练习。而 chain 模子直接举行 Lattice-Free MMI 练习，固然厥后还可以接着举行区分性准则练习，但是从如今的报道来看，这部分的提拔是比力小的。

　　在解码帧率方面由于 chain 模子利用的是拼帧然后降采样的方法，解码的帧率只有传统神经网络声学模子的三分之一，而辨认正确率方面相比传统模子会有非常显着的提拔。总结一下我以为将来深度神经网络声学模子重要有三个发展方向。

　　1.更 Deep 更复杂的网络

　　雷同 MSRA152 层 ResNet 的技能，固然以如今的盘算本领在语音辨认的实际应用中这种复杂网络布局的模子临时还不能落地，但是连续不绝的研究和探索可以为我们明白我们积极的方向和本领所能到达的上界。

　　2. End to End 的辨认体系

　　End to End 的辨认系同一直是比年来比力火的研究方向，如 CTC、 Attention 等都是在这方面非常故意义的工作，在海量规模的语音数据上创建盘算速率快、辨认正确率高的 End to End 的辨认体系会是将来的一个紧张课题。

　　3. 粗粒度的建模单位 state-phone-character

　　粗粒度建模单位的技能对于加快语音辨认的解码速率具有非常紧张的意义，而反过来解码速率的提拔又可以让利用更深、更复杂神经网络建模声学模子成为大概。

　　三、阿里巴巴的语音辨认声学模子技能

　　末了分享一下阿里巴巴团队在语音辨认声学模子技能方面的一些工作。

　　在工业界做语音辨认，数据量黑白常巨大的，上万小时的语音数据是再正常不外的，面对云云巨大的数据量，利用单机单 GPU 大概单机多 GPU 举行模子的练习是远远不能满意需求的，必须具有多机多 GPU 举行模子练习的本领。

　　我们利用的基于 Middleware 的多机多卡方案。GPU Middleware 提供了 API 接口使得我们可以通过对练习工具（kaldi、caffe 等）的简单修改实现并行练习。而且可以自主管理任务队列、数据分发、通讯、同步等，是我们可以或许更多的专注于算法本身。采取 Master-slave 模式，支持 MA / SGD / ASGD 等。

　　这是 Model Averaging 的一个示例：

　　表格里给出的是在 5000h 小时练习数据环境下练习 DNN 模子的加快结果，可以看到利用 8 个 GPU 的环境下约莫可以取得 7.2 倍的加快，利用 16 个 GPU 的环境下约莫可以取得 14.3 倍的加快。我们如今利用的是 Latency-control BLSTM 模子，这内里有从 BLSTM 到 CSC-BLSTM 再到 LC-BLSTM 的发展进程。

　　我们知道 BLSTM 可以有效地提拔语音辨认的正确率，相比于 DNN 模子，相对性能提拔可以到达 15%-20%。

　　但同时 BLSTM 也存在两个非常紧张的题目：

　　1. 句子级举行更新，模子的收敛速率通常较慢，而且由于存在大量的逐帧盘算，无法有效发挥 GPU 等并行盘算工具的盘算本领，练习会非常耗时；

　　2. 由于必要用到整句递归盘算每一帧的后验概率，解码耽误和及时率无法得到有效包管，很难应用于实际服务。对于这两个题目，前 MSRA lead researcher，如今已经是阿里巴巴 iDST 语音团队负责人的鄢志杰和他当时在微软的练习生一起起首提出 ContextSensitive-Chunk BLSTM （ CSC-BLSTM）的方法加以办理。

　　而以后文献 (Zhang2015, MIT)又提出了 Latency Controlled BLSTM（LC-BLSTM）这一改进版本，更好、更高效的减轻了这两个题目。我们在此底子上采取 LC-BLSTM-DNN 肴杂布局共同多机多卡、16bit 量化等练习和优化方法举行声学模子建模。完成了业界第一个上线的 BLSTM-DNN hybrid 语音辨认声学模子。

　　这两张是 LC-BLSTM 的表示图，练习时每次利用一小段数据举行更新，数据由中心 chunk 和右向附加 chunk 构成，此中右向附加 chunk 只用于 cell 中心状态的盘算，偏差只在中心 chunk 上举行传播。时间轴上正向移动的网络，前一个数据段在中心 chunk 竣事时的 cell 中心状态被用于下一个数据段的初始状态，时间轴上反向移动的网络，每一个数据段开始时都将 cell 中心状态置为 0。

　　该方法可以很洪流平上加快网络的收敛速率，并有助于得到更好的性能。解码阶段的数据处理惩罚与练习时根本雷同，差别之处在于中心 chunk 和右向附加 chunk 的维度可以根据需求举行调治，并不必须与练习采取雷同设置。

　　进一步，我们又在 LC-BLSTM 上举行了改进，起首提出一种改进的 FABDIBLSTM 模子，它和 LC-BLSTM 的差别在于时间轴上反向移动的网络，cell 中心状态是由 feed-forward DNN 盘算得到的，而不是原来采取的递归方式，如许在尽大概包管辨认正确率的同时，低落了模子的盘算量。

　　我们还提出一种改进的 FABSR-BLSTM 方法，用简单 RNN 更换时间轴上反向移动的 LSTM，以加快这部分的盘算速率。

　　表内里给出的是我们的实行结果，在 Switchboard 数据集上的实行表明在丧失少量精度的环境下，我们的改进版模子相比标准的 LC-BLSTM 可以取得 40%- 60%的解码加快。这部分工作已经被 ICASSP 2017 吸取，即将于本年三月份发表。

　　Low frame rate(LFR)是我们上线的又一新技能，LFR 是在 Interspeech 2016 集会会议上由谷歌的研究职员提出的，在论文中研究职员宣称 CTC 技能只有在 4 万小时以上的数据量下才有更好的结果，而 LFR 通过利用单状态的 CD-Phone、拼帧并降帧率、soft label、CE 初始化、Output Delay 等技能可以让传统神经网络辨认模子取得和 CTC 近似或更好的结果。

　　我们鉴戒了论文中的方法并将其乐成应用在 LC-BLSTM 上，在我们的一个上万小时数据的任务上。

　　LFR-LC-BLSTM 可以取得和 LC-BLSTM 差不多的辨认错误率，而且有约 3.6 倍的解码加快。据我们所知（to the best of our knowledge），我们也是如今业界唯逐一家落地 LFR 技能的公司。

　　在模子的鲁棒性方面，我们也做了非常多的工作。模子的鲁棒性不停是困扰业界和研究职员的一个题目，比如用安静环境下的语音数据练习的模子在噪声环境下辨认正确率就很差，用消息播报的语音数据练习的模子去辨认豪情的体育讲授，辨认正确率也会很差。

　　那么怎样降服差别的信道、噪声、应用场景的差别，使声学模子具有更好的鲁棒性呢，最好的办法固然是网络更多真实场景下的语音数据，但是假如一时之间做不到呢？

　　怎么利用现有的语音数据去尽大概的提拔模型的噪声鲁棒性？能不能利用现有数据去“造”和目标场景很雷同的数据？

　　这是一个很故意思的研究课题。算法层面的改进这里临时不提，说一下我们在“造”数据上的一些工作，我们计划了一套完备的数据分析、数据筛选和数据加工流程。

　　从应用场景分析开始，我们会去分析信道环境、噪声环境、语境环境等等。然后根据对应用场景的分析主动筛选得当的练习数据。再根据差别的场景环境，举行加噪、加快语速等处理惩罚。末了练习模子举行测试，再根据对结果的分析反馈我们应用场景的分析。

　　这一整套流程开始时由人为计划的，如今正渐渐往主动化流程上推，依托阿里 MaxCompute 高效盘算平台我们可以快速的完成海量数据的加工处理惩罚，这大大解放我们的算法职员，让各人有更多的履历投入到技能上的优化，而不是为数据烦恼。末了是我们语音辨认技能应用的一些案例，像是内部的智能质检和智能电话客服，阿里云年会上及时语音辨认挑衅金牌速记员。

　　末了是我们语音辨认技能应用的一些案例，比如阿里巴巴内部的智能质检和智能电话客服，从客岁开始，阿里团体与蚂蚁客服每接听一个电话，都会立即启动一个叫风语者的体系，它就是主动语音辨认技能，将语音变化成笔墨，千分之三的人工抽检可以刹时升级为100%的主动质检。除此应用场景之外，阿里YunOS、阿里小蜜以及手淘，如今都已经应用到阿里云的语音辨认体系。阿里云在 2016年会上公开展示及时语音辨认技能，并现场挑衅天下速记大赛亚军得主。据现场终极评测，呆板人在正确率上以 0.67%的薄弱上风克服第50 届国际速联速记大赛环球速记亚军姜毅。对外服务上我们开放了智能语音交互的本领 (data.aliyun.com)，为企业在多种实际应用场景下，赋予产物 “能听、会说、懂你”式的智能人机交互体验。在法庭庭审方面，我们利用语音辨认技能，将庭审各方在庭审过程中的语音直接变化为笔墨，供各方在庭审页面上查察，书记员简单或不消调解即可作为庭审笔录利用。各人在眼见直播平台上看云栖大会直播时，上面的及时字幕背后用的也是我们本身的语音辨认技能。

matlabswitch_matlab switch case