论文地址:TCNN:时域卷积神经网络用于实时语音增强
论文代码:https://github.com/LXP-Never/TCNN(非官方复现)
引用格式:Pandey A, Wang D L. TCNN: Temporal convolutional neural network for real-time speech enhancement in the time domain[C]//ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019: 6875-6879.
摘要
本文提出了一时语音增强的全卷积神经网络(CNN)。所提出的CNN在编码器和解码器之间插入时间卷积模块的结构(TCM)。我们称之为时间卷积神经网络(TCNN)。TCNN中间的编码器创建输入噪声帧的低维表示。TCM利用当前帧和前帧的编码器输出因果卷积层和膨胀卷积层。解码器使用TCM输出重构增强帧。以与说话人和噪音无关的方式训练模型。实验结果表明,该模型比最先进的实时卷积递归模型具有更好的增强效果,由于该模型完全卷积,其训练参数远低于以前的模型。
关键词:噪声与语音增强、时域、二维卷积神经网络无关,TCNN
1 引言
语音增强是指从语音信号中去除或衰减附加噪声的任务。它被用作鲁棒语音识别、电话会议和助听器的预处理器。传统的语音增强方法包括谱减法[1]、维纳滤波[2]、基于统计模型的方法[3]和非负矩阵分解[4]。
在过去的几年里,基于深度学习的监督语音增强方法已成为语音增强的主流。通常,在监督方法中,给定的语音信号被转换为时频(T-F)表示,并由T-F构建目标信号作为训练目标。最常用的训练目标是理想的比例掩模(IRM)[6]相位敏感掩模(PSM)[7]和短时傅里叶变换(STFT)幅度。
尽管使用T-F表示是最流行的方法,但也有一些缺点。首先,这些方法通常忽略纯相位信息,利用噪声相位重构时域信号。过去的一些研究表明,相位是提高语音质量的必要条件,尤其是低信噪比(SNR)[8]的情况下。其次,一些训练目标,如IRM,即使使用理想的目标也不会导致完美的信号重建。最后,快速语音增强,T-F表示计算是额外费用。
深度神经网络的上述因素和强大的表达能力使研究人员开始探索深度神经网络的语音增强功能。作者证明了全卷积神经网络对时域语音增强的有效性。最近,在[10]中,作者训练了一种使用频域丢失的模型来提高语音的感知质量。虽然[10]中的工作可以获得最先进的性能,但它并没有解决实时增强的问题。提出的模型每次使用128 ms帧,使模型不适合实际应用。
由于TCNN序列建模[11]的成功实现,以及基于编码器-解码器的系统结构对时域语音增强的有效性[10,12],我们建议将两者结合起来,以获得实时增强系统。该模型具有基于编码器-解码器的体系结构,由因果卷积层组成。插入编码器和解码器之间TCM,学习过去的长期依赖关系。在我们的工作中使用TCM用于[13]TCM类似地,作者在[13]中使用TCM以最先进的性能在时域实时分离说话人。
本文的组织如下:我们首先在下一节描述它TCNN。第三节描述了提案的框架。第四节给出了实验细节、结果和比较。第五部分总结了全文。
2时间卷积神经网络
TCNNs通用卷积网络[11]是为具有因果约束的序列建模任务而提出的。给定输入序列$x_0,...,x_t$以及相应的输出序列$y_0,...,y_t$,序列建模网络通过培训网络学习估计序列和输出序列之间的一些损失函数来估计输出序列$\hat{y}_0,...,\hat{y}_t$。对网络的因果约束意味着预测$\hat{y}_t$仅依赖于$x_0,...,x_t$,不依赖未来的输入$x_{t 1},...,x_T$。输入序列为带噪帧序列,输出序列为纯帧序列。
在施加因果约束,TCNNs它由因果层和膨胀卷积层组成。确保信息不会从未来泄露到过去。扩大卷积有助于增加感觉领域。接受范围越大,网络就越能回顾过去。图1显示kernal size=2.扩张因果卷积的例子。
图1 滤波器数=2.卷积的例子
此外,TCNN由残差组成,因此可以利用残差学习[14]对深度网络进行充分的训练。图2显示了本工作中使用的残余块。类似的残差块也用于[13]。残余块由三个卷积组成:输入1x1卷积、depthwise卷积和输出1x1卷积。输入卷积用于将输入通道的数量增加一倍。输出卷积被用来返回原始通道数,这使得输入和输出的加法兼容。depthwise用于进一步减少参数数量。在depthwise卷积中,通道数量保持不变,每个输入通道只有一个滤波器用于输出计算[15]。每个输出通道使用的滤波器数量与输入通道数量相同。输入卷积和中间卷积后PReLU非线性[16]和批量归一化[17]。
图2 提出出的框架中使用残差和块
3建议的框架
提出的TCNN有三个组成部分:编码器、解码器和TCM。编码器和解码器由二维因果卷积层组成,TCM该框架的框图如图3所示。
图3提出的TCNN模型
编码器将噪声帧序列作为输入,输入到编码器的大小T×320×1.T是帧数,320是帧大小,1是输入通道数。编码器的第一层将通道数从1增加到64。第一层后的输出维度为T×320×16.下七层沿帧维度以跨度为2的卷积 最终编码器的输出是维度T×4×64,网络中没有一层沿时间维度修改大小,使输出具有与输入相同的帧数。编码器中的每一层都被批归一化PReLU非线性处理。
编码器的输出被reshape为大小为T×256的一维信号。TCM对reshape操作后的输出,产生相同大小的输出。TCM由三个dilation blocks堆叠在一起。dilation blocks是由6个膨胀率呈指数增长残余块体叠加而成。dilation blocks在中间,残余块的扩张率分别为$2^0$、$2^1$、$2^2$、$2^3$、$2^4$和$2^5$。
解码器是由一系列二维因果转移的卷积(反卷积)层组成的编码器的镜像。解码器每层后的输出与编码器中相应对称层的输出级联。在训练中,我们向编码器的输入跳过连接添加0.3的dropout值。解码器中的每一层都被批归一化PRELU非线性处理。
具体网络参数见表1。超参数格式为编码器和解码器filterHeight filterWidth, (stride along time, stride along frame)。对于TCM,用小括号包括的条目代表残余块,超参数格式为filterSize、dilationRate、outputChannels。
表1 提出的模型系统结构。T表示时间帧的数量。括号中显示剩余块
4 实验
4.1 数据集
我们在WSJ0 SI-84数据集[18]以一种与噪音无关的方式评估了提出的框架。WSJ0 SI-84数据集包括7138个演讲者(42名男性,41名女性)。我们选择了集选择了6个演讲者。其余77名演讲者被用来创建训练集。为了训练噪音,我们使用了来自音效库的1万个非语音声音(可在www.sound-ideas.com下载)。在-5 dB、-4 dB、-3 dB、-2 dB、-1 dB和0 dB训练词是在信噪比下生成的。嘈杂的话语是以下方式产生的。首先,从训练者的话语中随机选择信噪比和噪声类型。然后,在选定的信噪比下,将选定的单词与选定的噪声类型的随机片段混合。总共有32万个训练词。训练噪音的持续时间约为125小时,而训练话语的持续时间约为500小时。
我们从测试集中使用它Auditec CD(http://www.auditec.com)两种具有挑战性的噪声(babble和自助餐厅)。创建了两个测试集。第一个测试集使用了来自演讲者(3个男人和3个女人)的话。第二个测试集是由6个(3个男性和3个女性)不包括在训练集中的说话者的话语创建的。这两组测试用于评估受过训练和没有训练的演讲者的表现。请注意,所有的测试单词都排除在训练集之外。
4.2 基线
对于基线,我们训练了两个模型。首先,我们训练一个基础LSTM实时因果系统。在我们的结果中,我们称这个模型为LSTM。从输入层到输出层,LSTM模型有161、1024、1024、1024、1024、161个单元。其次,我们训练[19]中最近提出的另一个实时因果系统。该系统是一种基于编码器-解码器的递归卷积系统结构LSTM递归。在我们的结果中,我们称这个模型为CRN。请注意,这两个基线模型都在频域中操作。
4.3 实验设置
所有的声音都被重新采样到16khz。
4.4 实验结果
我们比较了短期客观可懂度(STOI)[21]和语音质量知觉评价(PESQ)[22]得分的模型。首先,我们将TCNN与训练有素的演讲者的基线进行比较。结果见表2。与LSTM相比,STOI在信噪比和信噪比上均有6.1%的平均改善。PESQ在-5 dB时提高0.14,在-2 dB时提高0.17。同样,与CRN相比,STOI在信噪比和PESQ上都提高了4%,在-5 dB和-2 dB上分别提高了0.04和0.09。
接下来,我们在未经训练的演讲者身上比较这些模型。结果见表3。在性能改进中观察到类似的趋势,除了在这种情况下,TCNN在PESQ得分方面也显著优于CRN。这说明CRN模型对训练集中的说话人过拟合。
我们还比较了模型中可训练参数的数量。具体数字见表4。与基线模型相比,所提出的模型具有更少的参数,这使得它适合于真实世界应用程序的高效实现。
最后,值得一提的是,所提出的框架可以在输入处接受可变的帧大小。唯一需要更改的是根据所需的帧大小从编码器和解码器中添加或删除层。此外,该模型可以很容易地应用于其他基于回归的监督语音处理任务,如说话人分离、去混响和回声消除。
5 结论
在本研究中,我们提出了一种新颖的全卷积神经网络用于实时语音增强。提出的TCNN在频域显著优于现有的实时系统。此外,所提出的框架具有更少的可训练参数。此外,通过对网络的编码器和解码器进行简单的修改,系统很容易适应不同的帧大小。未来的研究包括探索TCNN模型用于其他语音处理任务,如去混响,回声消除和说话人分离。
6 致谢
这项研究部分得到了美国国家发展研究中心(NIDCD)的两项拨款(R01 DC012048和R01 DC015521)和俄亥俄州超级计算机中心的支持。
7 参考文献
[1] S. Boll, Suppression of acoustic noise in speech using spectral subtraction, IEEE Transactions on Acoustics, Speech, and Signal processing, vol. 27, no. 2, pp. 113 120, 1979.
[2] P. Scalart et al., Speech enhancement based on a priori signal to noise estimation, in Proceedings of ICASSP, 1996, vol. 2, pp. 629 632.
[3] P. C. Loizou, Speech Enhancement: Theory and Practice, CRC Press, Boca Raton, FL, USA, 2nd edition, 2013.
[4] N. Mohammadiha, P. Smaragdis, and A. Leijon, Supervised and unsupervised speech enhancement using nonnegative matrix factorization, IEEE Transactions on Audio, Speech, and Language Processing, vol. 21, no. 10, pp. 2140 2151, 2013.
[5] D. Wang and J. Chen, Supervised speech separation based on deep learning: An overview, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 26, pp. 1702 1726, 2018.
[6] Y. Wang, A. Narayanan, and D. Wang, On training targets for supervised speech separation, IEEE/ACM Transactions on Audio, Speech and Language Processing, vol. 22, no. 12, pp. 1849 1858, 2014.
[7] H. Erdogan, J. R. Hershey, S.Watanabe, and J. Le Roux, Phase-sensitive and recognition-boosted speech separation using deep recurrent neural networks, in Proceedings of ICASSP, 2015, pp. 708 712.
[8] K. Paliwal, K. Wojcicki, and B. Shannon, The importance of phase in speech enhancement, Speech Communication, vol. 53, no. 4, pp. 465 494, 2011.
[9] S.-W. Fu, Y. Tsao, X. Lu, and H. Kawai, Raw waveform-based speech enhancement by fully convolutional networks, arXiv preprint arXiv:1703.02205, 2017.
[10] A. Pandey and D. Wang, A new framework for supervised speech enhancement in the time domain, in Proceedings of Interspeech, 2018, pp. 1136 1140.
[11] S. Bai, J. Z. Kolter, and V. Koltun, An empirical evaluation of generic convolutional and recurrent networks for sequence modeling, arXiv preprint arXiv:1803.01271, 2018.
[12] S. Pascual, A. Bonafonte, and J. Serr, SEGAN: Speech enhancement generative adversarial network, in Proceedings of Interspeech, 2017, pp. 3642 3646.
[13] Y. Luo and N. Mesgarani, TasNet: Surpassing ideal time-frequency masking for speech separation, arXiv preprint arXiv:1809.07454, 2018.
[14] K. He, X. Zhang, S. Ren, and J. Sun, Deep residual learning for image recognition, in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 770 778.
[15] F. Chollet, Xception: Deep learning with depthwise separable convolutions, arXiv preprint, pp. 1610 02357, 2017.
[16] K. He, X. Zhang, S. Ren, and J. Sun, Delving deep into rectifiers: Surpassing human-level performance on imagenet classification, in Proceedings of the IEEE International Conference on Computer Vision, 2015, pp. 1026 1034.
[17] S. Ioffe and C. Szegedy, Batch normalization: Accelerating deep network training by reducing internal covariate shift, in International Conference on Machine Learning, 2015, pp. 448 456.
[18] D. B. Paul and J. M. Baker, The design for the wall street journal-based CSR corpus, in Proceedings of the Workshop on Speech and Natural Language, 1992, pp. 357 362.
[19] K. Tan and D. Wang, A convolutional recurrent neural network for real-time speech enhancement, in Proceedings of Interspeech, 2018, pp. 3229 3233.
[20] D. Kingma and J. Ba, Adam: A method for stochastic optimization, arXiv preprint arXiv:1412.6980, 2014.
[21] C. H. Taal, R. C. Hendriks, R. Heusdens, and J. Jensen, An algorithm for intelligibility prediction of time frequency weighted noisy speech, IEEE Transactions on Audio, Speech, and Language Processing, vol. 19, no. 7, pp. 2125 2136, 2011.
[22] A. W. Rix, J. G. Beerends, M. P. Hollier, and A. P. Hekstra, Perceptual evaluation of speech quality (PESQ) - a new method for speech quality assessment of telephone networks and codecs, in Proceedings of ICASSP, 2001, pp. 749 752.