《语音识别基础：（一）语音是什么》

从最起初的一声巨响，到梵音天籁，到耳旁的窃窃私语，到妈妈喊我回家吃饭，总离不开声响。声响是这个世界存在并运动着的证据。

1.1大音希声

假设我们已经知道了声响是什么。

我们可以找到很多描述声响的词语，如“抑扬顿挫”、“余音绕梁”。当我们在脑海中搜刮这类词语时，描述对象总绕不过这两个：人的声响和物的声响。人的声响，就是语音；物的声响，多数想到的是音乐。这样的选择源于人的先验预期：语音和音乐才最可能有意思，有意思的才去关注。估计不会有人乐于用丰富的辞藻来描述毫无意思的声响。所以，语音研究的意思在于语音自身所传送的意思是什么，以及语音为什么能够传送意思。

声响有很多，每时每刻每次振动都能孕育发生声响，可是有意思的声响实在不多。我们可以使用机器随机生成一段声响，心想着也许这段声响可以孕育发生一些笔墨内涵。这个想法与很多年前就开始忙不迭地敲打莎士比亚巨著的大猩猩没有差别。不管重复多少次，这些随机的声响听起来都是杂音，没意思。很显然，在这样一个庞大的声响空间中，有意思的语音和音乐只是其中极微小的一点，这也是“大音希声”的一种解释吧。偏偏人类就能毫不费力找到那个点，并且能说会道，这种搜索能力也是千百年来才积攒下来的。不过就算是这么一个小点，古往今来的文学和音乐经典也并未占据多少地盘，这也使得语音言语的研究、文学音乐的创作有着广阔的发挥空间。

从大音希声中，我们可以得到以下一些启示：言语是高度概括和规范化的产物，它的熵值（简单理解为系统的混乱程度）极低，所以言语自身反映了一种思维方式，比如差别言语对“过去时”、“现在时”、“将来时”的处理方式体现了对时间的差别感受，差别言语对主谓宾的排序体现了对空间层次的差别感知；还有，语音在声响空间中是高度集中的，这使得我们在解析一段语音时不用搜索整个声响空间，少了一些盲目性（不过言语自身的博大精深已让人叹为观止了）。

声响以波的情势传播，即声波（Sound Wave）。当我们以波的视角来理解声响时，却又大繁若简起来：仅凭频次（Frequency）、幅度（Magnitude）、相位（Phase）便构成了波及其叠加的所有，声响的差别音高（Pitch）、音量（Loudness）、音色（Timbre）也由这些根基“粒子”组合而来。图1.1展示了几种简单的波形，世上形形色色的声波都可以“降解”到根基波身上，这也是傅里叶变幻（Fourier Transform）的根基思想。差别的声波有差别的频次和幅度（决定音量），人耳也有自己的接受范围。人耳对频次的接受范围大致为 20 Hz至20 kHz，于是以人为本地将更高频次的声波定义为超声波（Ultrasound Wave）、更低频次的声波定义为次声波（Infrasound Wave），虽然其他动物可以听到差别范围的声响；人耳对音量的接受范围已经进化得适应了地球上的常规声响，小到呼吸声、飞虫声，大到飞机起飞、火箭发射的声响（已经不是地球默认配置），再往上，人的身心就越来越承受不住了，为了衡量音量的大小，再一次以人为本地将人耳所能听到的1kHz纯音的音量下限定义为0dB。

《语音识别基础：（一）语音是什么》 1.2孕育发生语音

言语是人类的标志性能力，是一项发明，只不过这个发明是人类群体在长远的历史当中不断打磨而成，趋近于稳定而不得稳定，因为新的人和新的思想总是不断涌现，言语随之而进化，根据社会的需要不断做出改变，比如小到每年孕育发生的新词（对于汉语来说，常用的字根基已经固定不变，是所有词句的根基单元，新加的词也不过是对已有单字进行组合，再赋予新的意思，这与利用字母组装成新词有所区别），大到一种言语的消亡和另一种言语的诞生（计算机言语也是一种情形）。当言语通过声响的情势表达出来，即为“语音”，是指由人类发出的、承载特定语义的声响，其中语义不仅可以借助笔墨自身来传送，也可以借助声响的音高、音强、音长、音色及其组合来表示差别的情感、态度等信息。

图1.2展示了人体的发音器官及其对声响的影响区域。简而言之，肺部孕育发生气流动力，经过气管引起声带振动形成声源（通常称为激励，图中激励区也叫声源区），最后经过声道（咽腔、口腔、鼻腔等区域）调制后由口唇辐射出来，孕育发生了我们所听到的语音。当我们说话、唱歌时，根基上所有的发声器官都被调用了；当我们哼着小曲时，口腔可以不动，而只通过调动鼻腔来调节音调；当我们捂着口鼻时，气流停止，没了动力，渐渐就发不出声响了。

《语音识别基础：（一）语音是什么》已知了人体发音器官的结构图，便可以仿生复制出语音发生器，然而仅仅只是功能上复制出这些发音器官以及将它们联系在一起的神经系统已是很难，而模拟孕育发生让各个器官能够联动协作的神经信号就更难了。

1.3看见语音

语音是用来听的，看不见，摸不着，但是我们可以看看语音的保管情势。自然存在的语音是连续的波动，具有波的所有属性。声波可以保管成团圆的数字，即模数转换（Analog to Digital Conversion，ADC），所以，我们之后所研究的语音并不是声响的最原始形态，甚至都不叫声响，一串数字而已，但这些数字却达到了它的目的：再现声响，且原始声响所要传送的信息不丢失。音乐可以做得更彻底，直接将声响记录在一纸没有动静的乐谱上。除了声响，光线也是自然存在的现象，同样地，我们也可以将它数字化，保管成图片或视频。机器进修中注重表征进修（Representation Learning），不管是声响还是光影，它们的数字化保管情势已经是一种表征方法了。对文本的处理显得直来直去一些，因为笔墨是人类发明出来的，发明笔墨的目的就是为了保管和传承，如音符一样，它也是一种团圆的可记录、传播的符号，它的形态就是它的保管情势，所以笔墨自身就是文本处理的原始表征方法。

《语音识别基础：（一）语音是什么》语音的根基保管情势可用波形图（Waveform）展现出来，如图1.3所示，可以简单地看作是一串上下摆动的数字序列，比如，每1秒的音频可以用16000个电压数值表示，即采样率为16kHz。进一步聚焦放大波形图，可以清晰地看到每个采样点，如图1.4所示。真正的语音不需要额外的注解，但对于数字化的语音来说，还需要额外的信息对文件格式进行说明，如信道、采样率、精度、时长等，并有文件大小=格式信息+信道数*采样率*精度*时长。可以用soxi查看文件信息，如图1.5所示。

《语音识别基础：（一）语音是什么》语音，是包含时序信息的序列，是时域上的一维信号。团圆傅里叶变幻（Discrete Fourier Transform，DFT）使得语音的频域分析成为可能，图 1.3的语音可以变成图1.6的频谱图（Spectrogram）模样，图中可以清楚地看到“层峦叠嶂”，原始音频里的信息又以另一种表征方法释放出来了，颜色明暗表示频带能量大小，较亮的条纹即是共振峰（Formant）。整个过程就好比一双好耳朵听到了一首随时间流动的曲子，随即写出了它的谱子，看着谱，曲子又随即可以复现出来。傅里叶变幻适宜具有平稳性（Stationarity）的波，而表意丰富的语音显然不具有长时平稳性，为了适用傅里叶变幻，则需要假设语音的短时平稳性，所以语音的傅里叶变幻是一小段一小段（一帧）进行的，而“短时”有多短也有差别影响，较短的窗口有较高的时域分辨率、较低的频域分辨率，较长的窗口有较高的频域分辨率、较低的时域分辨率，语音识别中常取25毫秒。时域与频域之间是一一对应的，可以代表彼此。从一种表征到另一种表征，包含的意思都在，只是有些藏得深，挖掘不到，有些露得浅，一目了然，后者才更利于机器进修，所以机器进修领域常常撇不开表征进修，而深度进修的优势就在于表征进修。