声音计算，

时间：2022-10-25 03:00:04 sir二极管连接器dc接头4芯三极管bc546to et电子变压器

两大比赛

1.用于信号分离SiSEC，单通道人声与伴奏分离

2、用于音乐信息检索的MIREX，与Music Information Retrieval最先进的算法和系统。

SiSEC

两个任务：

mixture分为2轨(人声和伴奏)
mixture分离为4轨（bass、drum、vocal、others）。

MIREX

全称Music Information Retrieval Evaluation eXchange，即音乐信息检索评估，比赛由音乐信息检索评估IMIRSEL每个子项目由任务组织者设计和管理，这些任务组织者基本上是各个领域的领先专家。

最常见的任务：音频分类Audio Classification (Train/Test) Tasks

包括以下子任务：1. 美国流行音乐、拉丁音乐、韩国流行音乐流派分类2. 音乐情感分类，韩国流行音乐情感分类，3. 鉴别古典音乐作曲家。这项任务已经完成多年，准确性达到瓶颈，不同任务的准确性基本稳定在0.65~0.8之间。

音频相似度与检索Audio Music Similarity and Retrieval

音频相似度和检索，7000首300s这首歌，回到一个稀疏的矩阵，回到每首歌的前100首歌曲和相似性。不确定这种相似性的测量标准是什么：节奏、速度、调式、节奏、旋律、和声、和弦，其中一个或几个。

符号旋律相似性Symbolic Melodic Similarity

旋律相似性的计算应指MIDI旋律符号，比较旋律的相似性。

结构分段Structural Segmentation

输入音乐，输出音乐的分段信息，因为每个人都能理解音乐结构，特别是流行音乐类型（如诗歌、合唱等）

多基频检测与跟踪Multiple Fundamental Frequency Estimation & Tracking

Estimation，将每一固定10ms检测内基频；Tracking，检测基频的持续长度。

音频节奏检测Audio Tempo Estimation

提交的程序应输出两个节拍(慢节拍)T节拍快T2）以及T1相对于T2强度(0-1)。

音频标签分类Audio Tag Classification

与Traing/Test任务相似，不同的是允许一个样本对应多个不同的标签，所以最终输出是稀疏矩阵。

盲分离评价指标

根据盲源分离评价指标（BSSEVAL），语音分离有三个性能指标：Source-to-Distortion Ratio（SDR）、Source-to-Interferences Ratio（SIR）、Sources-to-Artifacts Ratio（SAR）。SIR 反映分离算法对干扰信号的抑制能力，SAR 反映分离算法对引入噪声的抑制能力，SDR 它反映了整体的分离效果。SDR、SIR 和 SAR 分离性能越高，值越大。

常用数据集及其扩展

语音分离研究的常用数据集 iKala 数据集与 DSD100 数据集。这两个数据集都提供独立的声音轨道和伴奏轨道。神经网络的输入可以通过混合声音轨道和伴奏轨道获得。当神经网络预测掩膜时，输出需要根据声音轨道和伴奏轨道计算；当神经网络预测范围时，输出可以直接通过声音轨道计算。

iKala 数据集

包含 352 流行的中文歌曲片段。其中，252 1000个片段是公开数据集保留片段 MIREX歌唱人声分离竞赛。每个片段的长度为 30 秒，采样率为 44.1 k Hz。歌曲片段包括左右两声道，左声道为人声，右声道为伴奏。

DSD100 数据集

是 2016 年 SiSEC 竞赛 MUS 子竞赛标准数据集。12 支队提交了共 24 该方法涵盖了近年来世界级的方法，包括稳定的主要成分分析、REPET、全连接神经网络、卷积自编码器、循环神经网络、集成方法等。DSD100 数据集专门用于声分离算法的研究，包括 100 完整的歌曲。分为训练集和测试集，各有各的 50 首。音乐包含 4 音轨：鼓、贝斯、人声等伴奏，每个音轨都是立体声。DSD100 数据集中的语音分离包括两个子任务，第一个是将混合信号分离成 4 二是将混合信号分离成人声和伴奏，使伴奏包括鼓、贝斯等伴奏。歌曲的长度在 2 分钟到 7 采样率在分钟之间 44.1 k Hz。相比于 iKala 数据集，DSD100 对于语音分离来说，数据集更难。首先，DSD有更多的音乐流派，包括嘻哈音乐、摇滚音乐等流派。其次，有些音乐包括电子乐器，电子乐器的频谱与传统乐器有很大的不同。此外，一些音轨在音乐中间停顿了很长时间。最后，少数歌曲的声音轨道经过非线性处理，谐波结构被破坏。

数据扩增

数据扩展的核心思想是修改声轨与伴奏轨的混合，从而生成更多的训练数据。

1. 随机选择音乐的人声音轨和伴奏音轨。在过去，生成训练数据的方法只混合了同一首歌的人声音轨和伴奏音轨。用另一首歌代替伴奏后，这仍然是一首歌。因此，人声和伴奏可以随机混合。不同的音乐长度不同，整首音乐不能混合，但没关系，一次只能混合一小段音乐。U-Net 输入只需要连续 8 帧，只对应时间 256 ms。
2. 随机选择每个音轨的开始时间。只需要混合一段很短的音乐，就可以随机选择音轨混合的起始时间。这种方法和上述方法都会打破声音与伴奏的同步关系。声音通常从节拍的开始开始，随机选择开始时间，这种同步关系不再存在。然而，这种同步关系对语音分离的价值还有待进一步验证。初步实验表明，同步关系对分离没有显著影响。
3. 随机放大或缩小信号的范围。音量不应影响分离的效果，因此信号的范围可以在混合前随机放大或缩小。在实践中，产生一个 0.5 到 2.0 服从均匀分布的随机数，然后用这个参数缩放人声和伴奏。

数据扩展将在训练过程中动态生成。这样，扩展后的数据就不需要保存，可以减少内存的占用。同时，神经网络训练主要占用 GPU，在这段 CPU 空闲时间可以扩展数据，这样数据扩展就不会占用额外的时间。

基于频域的语音分离方法

首先，时域上的语音信号在傅里叶短时间内发生变化(short-time Fourier transformation, STFT)之后，将一维时域信号转换为二维频域信号。此时得到的是复数值，通常只使用语音增强或分离STFT作为输入特征的幅值谱。目标语音信号的掩蔽值通过增强或分离算法估计。然后，利用混合语音的振幅值谱与估计的掩蔽值对应点乘积获得估计的目标语音信号振幅值谱。最后，逆傅里叶变换采用增强幅值谱和原始相位谱(ISTFT)，语音信号增强。

基于频域的语音分离方法存在一个共同的问题：相位不匹配，即增强幅值谱和原始混合相位谱ISTFT，对语音分离的性能有一定的影响。因此，为了解决这个问题，频域有两种解决方案：1。补偿相位信息；2.使用复数谱进行语音分离。相位补偿语音分离法，Zhongqiu Wang, Deliang Wang等人提出了WA-MISI[INTERSPEECH 2018]和Sign prediction net[ICASSP 2019]等方法。关于复数谱的语音分离方法，Yuzhou Liu, Deliang Wang[TASLP 2019年等人提出Deep CASA的方法。

深度聚类算法(deep clustering, DC)

深度聚类算法[Hershey et al, ICASSP 2016年的主要思想是一个(T,F)混合语音范值谱特征的维度映射到更高的维度(T,F,D)深度嵌入式特征空间，即每个时频单元(t,f)映射成D维的特征向量。这样，将二维特征映射到三维空间，使输入的混合特征更加不同。最后，使用它K-means聚类算法聚类嵌入式向量，得到估计的目标掩蔽值(binary mask)。映射过程是利用深度神经网络实现的

安排不变性训练标准(PIT)

对于发言人无关的语音分离，最大的困难在于解决网络输出的排列组合问题。因为我们必须估计每个目标演讲者的声音，网络很难确定每个目标演讲者的输出顺序。具体来说，对于两个演讲者混合的问题，如输入混合语音AB，第一个网络输出A，第二个输出B；当输入BC时，第一个网络输出C，第二个输出B；但当混合语音是AC在这个时候，网络可能不知道谁应该先输出，所以会有矛盾。因此，为了解决这个问题，俞栋先生在2017年提出了不变训练的安排标准(PIT) [Dong Yu et al, ICASSP 解决办法是输出所有可能的排列组合，然后选择均方误差(MSE)最小组合作为优化目标。

语音分离方法基于深度嵌入式特征和区分性学习

为了解决DC算法的缺点，Cunhang Fan2019年，等人提出了基于深度嵌入式特征和区分性学习的语音分离方法(DEF-DL)[Cunhang Fan et al, INTERSPEECH 2019]。这种方法主要是将军DC使用它作为一个特征提取器DC算法提取了具有区分性的深度嵌入特征。因为使用DC每个时频单元都可以映射到更高维度的向量空间，从而获得深度嵌入式向量，并使用不受监督的向量空间K-means聚类算法可以分离混合语音，因此深度嵌入式向量是一种非常不同的语音分离特征。为使目标函数能够直接定义为真实的目标幅值谱，DEF-DL用监督网络替换K-means聚类算法。即将该深度嵌入式特征作为uPIT网络的输入特征分离了目标语音。

基于时域的语音分离方法

解决相位不匹配的另外一类解决办法就是在时域上进行语音分离，即利用时域的波形点作为特征输入，输出为时域的波形点，这样端到端的训练就可以避免相位不匹配的问题。这是因为时域上包含了语音的所有特征(幅值谱和相位谱都包含在其中)，所以直接端到端的训练就可以避免相位不匹配的问题。基于时域的语音分离方法可以取得一个很好的分离效果，但是由于是逐点计算的，所以网络的batch size不能太大，这导致了模型训练速度比较慢的问题。

Conv-TasNet

Covn-TasNet是Yi Luo等人[Yi Luo, et al, TASLP 2019]在2019年提出来的一种语音分离方法，达到了当时最好的语音分离性能。在Covn-TasNet之前，Yi Luo等人在2018年的时候就提出了一种TasNet[Yi Luo, et al, ICASSP 2018]的语音分离方法，该方法中包含了LSTM层，而Covn-TasNet则是全卷积网络的模型，利用TCN结构替换掉了LSTM。本节重点讲述Covn-TasNet，TasNet就不做展开。Covn-TasNet由编码器，分离模块和解码器三个主要部分组成。编码器，利用一维卷积替换掉STFT对时域的波形点进行编码，用网络去学习编码参数。分离模块，利用编码器编码出来的特征作为输入，使用TCN结构作为分离模块。分离模块的输出为类似频域上的掩蔽值，最后与编码器的输出进行乘积得到最终的分离特征。解码器，利用转置一维卷积将分离后的特征解码出来得到分离后的目标语音信号。

Dual-Path RNN(DPRNN)

Covn-TasNet存在一个问题就是没有办法整合整句话的信息，即它只能关注到切割语音长度的信息。为了解决这个问题，Yi Luo和Zhuo Chen等人[Yi Luo, Zhuo Chen, et al, ICASSP 2020]在2020年提出了一种DPRNN的语音分离方法。DPRNN不光会考虑切割语音长度的信息，同时也会整合整句的信息，来使得分离网络可以关注到更长的语音信息。这也使得DPRNN刷新了语音分离的性能。

基于深度注意力融合特征和端到端后置滤波的语音分离方法(E2EPF)

针对频域上语音分离的相位不匹配问题和分离的性能不好，分离后的语音仍然含有干扰源的问题，Cunhang Fan等人在2020年提出一种基于深度注意力融合特征和端到端后置滤波的语音分离方法(E2EPF)[ Cunhang Fan, et al. TASLP 2020]。该方法利用后置滤波的思想去做语音分离，将语音分离分成两个阶段。第一个阶段使用频域的语音分离方法对混合的语音进行初步的分离。为了进一步增强预分离的语音，使用端到端后置滤波和深度注意力融合特征来提升分离后语音的可懂度。深度注意力融合的特征其主要作用是使分离后的特征可以动态的关注语音分离的语音，从而在进行端到端后置滤波的时候可以更好地分离出目标语音。

SonyNet 的算法（时域）

来自 Sony 公司的研究员设计了一个全连接神经网络用于语音分离神经网络SonyNet。这个神经网络在 DSD100 语音分离竞赛中取得了非常好的效果。DSD100 数据集是专门用于评估语音分离的数据集。数据集包含 100 首完整的音乐，分为训练集和测试集。训练集和测试集各包含 50 首音
乐。每一首音乐包含鼓、贝斯、人声和其它乐器 4 个音轨。每一个音轨是采样率为 44.1 kHz 的立体声。
语音信号首先降采样为 32 kHz，然后通过1024 点、重叠 50% 的短时傅立叶变换转换到时频域。频谱的幅度会作为神经网络的输入，频谱的相位会保留下来，用于后期逆短时傅立叶变换时声音信号的恢复。由于 DSD100 数据集包含 4 个音轨，这个系统包含 4 个神经网络分别对每一类声音进行分离。最后 4 个声音信号会通过维纳滤波器进行滤波处理。为了让神经网络获取一些上下文的信息，一帧频谱将同时往前和往后扩展 C 帧，用来预测一帧频谱幅度。实际中 C = 8，此时得到的输入向量长度为(2 × 8 + 1) × 513 = 8721，使用主成份分析可以将输入向量的长度减半变成 4360，
从而降低参数的数目，避免过拟合。神经网络共包含 5 层全连接层，激活函数为ReLU。隐藏层与输出层的节点数目均为 513。

JitongNet 的算法

Jitong Chen 设计了一个全连接的神经网络用于语音降噪神经网络JitongNet。语音降噪也是语音分离问题的一种，需要从混合声音信号中分离出语音信号。虽然这是一个用于语音降噪的神经网络，但是在设计神经网络时，研究者并没有考虑噪声信号的特殊性。语音分离与语音降噪的最大的区别在于生成训练数据所使用的数据集，因此同样的网络结构也可以用于人声与伴奏的分离。生成训练数据使用的语音数据来自 IEEE 英语语句数据集。语音采集于一位男性，采样率为 44.1 k Hz。每一个句子包含 5 个单词。背景噪音数据来自 Auditec CD。噪音包括餐厅噪音和嘈杂人声噪音。
JitongNet 系统的输入是混合有噪音的语音信号，具体的分离流程如下：1. 降采样：混合信号首先降采样到 16 kHz。2. 特征提取：JitongNet 唯一使用的特征是耳蜗时频图。在计算耳蜗时频图时，混合声音信号首先经过 Gammatone 滤波器组滤波处理，滤波器的冲击响应是一个受到 Gamma 分布函数调制的正弦信号。滤波器组共包含 64 个滤波器，中心频率分布在 50 到 8000Hz 之间。滤波器的等价矩形带宽均相等。对每一个信道的信号以 20ms 为帧长，10ms 为跳跃距离，计算每一帧内的能量，得到的便是耳蜗时频图。3. 深度神经网络预测：23 帧耳蜗时频图连接成为一个长度为 23 × 64 = 1472的向量作为神经网络的输入。神经网络预测 5 帧的理想浮值掩膜，每一帧将被预测 5 次，5 次预测的结果经过平均后作为最终结果。多次预测并取平均起到了一种集成学习的效果，具有更好的分离效果。4. 时频掩膜：由于神经网络输出的是浮值掩膜，需要将浮值掩膜乘以输入的耳蜗时频图得到最终的估计。5. 语音合成：使用 Gammatone 滤波器组生成时频图表示是一种不可逆的操作。Weintraub提出了一种重新合成声音信号的方法。6. 上采样：将语音信号上采样恢复成原始的 44.1 k Hz。
虽然 JitongNet 的系统结构与 SonyNet 的系统结构有很大差异，JitongNet 的神经网络却与 SonyNet 很相似。JitongNet 同样为全连接神经网络，包含 5 个隐藏层。每个隐藏层包含 2048 个神经元，全连接层使用 ReLU 作为激活函数。输出层包含5 × 64 = 320 个神经元。为了避免过拟合，每一层隐藏层的输出还经过了 dropout层。Dropout 层会以 0.2 的概率随机断开连接。JitongNet 训练时使用的是小批量梯度下降，每一批包含 256 个样本，均方误差为损失函数。

基于卷积降噪自编码器的算法

Pritish Chandna 提出使用卷积降噪自编码器PritishNet来进行语音分离。卷积自编码器是卷积神经网络与自编码器的结合。其中，卷积神经网络是图像分类中效果最佳的神经网络，自编码器通常用于数据的压缩。
卷积神经网络于 20 世纪 90 年代提出，早期被用于识别手写数字与人脸，之后卷积神经网络的研究经历了一段低潮。直到在 2012 年，卷积神经网络在 ImageNet 大规模图像分类竞赛中取得了巨大的成功才重新复出。对于二维数据，比如图像，局部区域的值具有很高的相关性，形成了具有区分性的模式，这些模式在图像的不同区域重复出现。卷积神经网络很好地利用了这一点，让一个神经元只与前一层一个局部区域的神经元相连。这种局部连接性，极大地减少了参数的数目，同时让神经网络具有更好的泛化性能。当使用频谱作为特征时，输入信号经过短时傅立叶变换得到时频图。

与自然图像类似，时频图是一个二维矩阵，同时存在重复出现的模式。这种重复同时存在于频率轴与时间轴。在频率轴，根据声音产生的规律，声音中存在谐波，谐波的频率为基音频率的整数倍。时间轴存在两个不同时间尺度的重复性。在很短的一段时间内，由于声音具有短时平稳性，连续数帧的频谱变化很小。在一段很长的时间内，这种重复性是鼓点的循环、相同和弦的演进或是人类语音中有限的音素。基于这种重复性，Rafii 与 Pardo 提出了基于重复性的人声与伴奏分离方法。由于时频图与图像的相似性，许多研究者也提出使用卷积神经网络来进行声音。

基于循环神经网络的算法（频域）

语音信号是一个时间序列，当前时刻的频谱与前一时刻具有很强的相关性。一种利用相关性的方式是将连续数帧频谱作为输入。当增加帧数时，神经网络权重的数目会随着输入维度的增加而增加，因此建模的帧数会受到限制。另一种方式是使用循环神经网络，它通过引入前一时刻隐藏层的输出能够建模无限久远的依赖关系。

Po-Sen Huang 提出了一种基于循环神经网络的单通道人声与伴奏分离框架PosenNet。混合信号首先会进行短时傅里叶变换得到频谱，其中傅里叶变换的点数为 1024，跳跃距离为 512。频谱是
PosenNet 唯一使用的特征。频谱的幅度会输入到 PosenNet 用以预测人声与伴奏的频谱幅度。最后频谱幅度会进行逆短时傅里叶变换合成语音。

麦克风

1 驻极体电容麦克风

ECM，Electret Capacitance Microphone。驻极体电容器麦克风有两块金属板，其中一块表面涂有驻极体薄膜，另一块金属板接至场效应管的栅极。声电转换的关键元件是驻极体振动膜，它是一片极薄的塑料膜片，在其中一面蒸发上一层金属薄膜。然后再经过高压电场驻极后，两面分别驻有异性电荷。膜片的蒸金面向外，与金属外壳相连通。膜片的另一面与金属极板之间用薄的绝缘衬圈隔离开。这样，蒸金膜与金属极板之间就形成一个电容。当驻极体膜片遇到声波振动、摩擦时，膜片上会出现表面电荷，引起电容两端的电场发生变化，从而产生了随声波变化而变化的交变电压。在驻极体话筒中，有一只场效应管做预放大，因此驻极体话筒在正常工作时，需要一定偏置电压，一般不大于10v。

驻极体膜片与金属极板之间的电容量比较小，一般为几十pF。因而它的输出阻抗值很高(Xc=1/2~tfc)，约几十兆欧以上。这样高的阻抗是不能直接与音频放大器相匹配的。所以在话筒内接入一只结型场效应晶体三极管来进行阻抗变换。场效应管的特点是输入阻抗极高、噪声系数低。普通场效应管有源极(S)、栅极(G)和漏极(D)三个极。这里使用的是在内部源极和栅极间再复合一只二极管的专用场效应管。接二极管的目的是在场效应管受强信号冲击时起保护作用。场效应管的栅极接金属极板。这样，驻极体话筒的输出线便有三根。即源极S，一般用蓝色塑线，漏极D，一般用红色塑料线和连接金属外壳的编织屏蔽线。

驻极体电容话筒频响范围较窄，但灵敏度高，体积可以做的很小，适用与语言拾音，尤其在舞台演出时用作无线话筒拾音。

MEMS麦克风。是一种具有ECM功能的固态声音感应芯片，用于手机等设备中。

2 动圈麦克风

它内部主要由磁铁、线圈、振动膜、升压变压器、软铁等构成。磁铁和软铁构成磁路，磁场集中于芯柱和外圈软铁所形成的缝隙中。在软铁前面装有振动膜，它上面带有线圈，正好套在芯柱上，位于强磁场中。当振动膜受声波压力前后振动时，线圈便切割磁力线而产生感应电动势，从而将声波信号转换成电信号。

动圈式传声器的频率响应为50～10000Hz，输出电平为50～70dB，无方向性。

3 铝带式麦克风

Ribbon Microphone。在磁铁两极间放入通常是铝或杜拉铝质料的带状金属薄膜，此薄膜受声音震动时，因电磁感应而生讯号。

音频接口

1 TRS

3.5mm小三芯音频线。Tip（尖）、Ring（环）、Sleeve（套）。

6.35mm接头音频线。6.35接头可分为：大三芯TRS与大二芯TS。一般用于连接电吉他、调音台等设备。区别：大三芯是可作平衡接法或双声道接法。

TRS就是三触点的接口，即左右声道加一个接地，我们常称为三段式插头。TRRS则有四个触点，可传送左声道、右声道、接地及收音麦的讯号，称为四段式插头。常用的手机耳麦是TRRS四段式插头的，它不仅能通话，还能通过传送讯号控制音乐播放。

2 莲花头（RCA）音频线

多用于点歌机、DVD、电视以及广播设备等连接。莲花线属于单声道非平衡传输，双根莲花线可组成立体声。RCA接口采用同轴传输信号的方式，中轴用来传输信号，外沿一圈的接触层用来接地。每一根RCA线缆负责传输一个声道的音频信号，因此，可以根据对声道的实际需要，使用与之数量相匹配的RCA线缆。比如要组双声道立体声就需要两根RCA线缆。

3 卡侬XLR

卡农头(XLR)音频线。多用于扩声系统中，话筒、声卡、调音台及处理器等设备间的连接，卡农线属于平衡传输，抗干扰性强。我们通常见到的XLR插头是3脚的，当然也有2脚、4脚、5脚、6脚的，比如在一些高档耳机线上会看到四芯XLR平衡接头。XLR接口与“大三芯”TRS接口一样，可以用来传输音频平衡信号。

平衡信号与非平衡信号。声波转换成电信号后，如果直接传送就是非平衡信号，如果把原始信号反相180度，然后同时传送原始信号和反相信号，就是平衡信号。平衡传输就是利用相位抵消原理，将音频信号传输过程中受到的其他干扰降至最低。

语音增强理论与实践 [（美）罗艾洲著；高毅等译] 2012年版

speech enhancement

本书内容来源于语音信号处理课程。该领域的兴趣来源于对噪声抑制算法的研究，这些算法可以帮助听障人士(人工耳蜗植入者)在噪声环境下更好的交流。全书内容分为三个部分。第一部分介绍数字信号处理以及语音信号的基础知识。第二部分介绍过去20年中所提出的各类语音増强算法。第三部分介绍评估语音增强算法性能的方法和手段。

语音增强算法能减轻或者抑制背景噪声，因此有时也被称为噪声抑制（noise suppression）。应用场合包括在嘈杂的环境中说话，或者语音受到通信信道噪声的影响。例如，在通过蜂窝式移动电话进行语音通讯时，发送端语音往往带有汽车噪声或者餐馆中的嘈杂声等背景噪声。蜂窝电话标准中，声码器会被用来对语音进行压缩编码，语音增强算法可以用作声码器前端的预处理器。在军用通讯系统中，对语音可懂度的要求通常高于对语音质量的要求。实际上，大多数算法只是改善了语音的质量。在减少背景噪声的同时，引入语音的失真，进而损伤了语音的可懂度。语音增强的主要挑战就在于在不明显引入信号失真前提下，有效抑制噪声。声学噪声对于纯净信号而言有可能是加性的，也可能是卷积性的，比如房间里产生了严重回声的情况。

语音和噪声声强级通过声级计来测量，测试结果通过 db SPL( decibel sound pressure level，分贝声压级)来表示。DB SPL是对0.0002dynes/cm2（人耳可以听到的最小声压）的相对声压。人们面对面交流的典型距离是1米，距离每增加一倍,声强级减少6dB。在乘坐火车时，人与人之间交流的距离可能减少到0.4米。

声级计( sound level meters)是最基本的噪声测量仪器，它是一种电子仪器，但又不同于电压表等客观电子仪表。在把声信号转换成电信号时，可以模拟人耳对声波反应速度的时间特性；有不同灵敏度的特性以及不同响度时改变特性的强度特性。声级计是一种主观性的电子仪器。

参考文献：

1、2018年声音计算“大事记” - 知乎 https://zhuanlan.zhihu.com/p/66589739

2、DCASE挑战赛原始提案文件（详细信息）_cpongo7的专栏7-CSDN博客 https://blog.csdn.net/cpongo7/article/details/100994161

3、[MIREX] MIREX评测介绍 - CarlGoodman - 博客园 https://www.cnblogs.com/littletail/p/5328586.html

4、MIREX 维基百科 https://www.music-ir.org/mirex/wiki/MIREX_HOME

5、如何分离不同说话人的语音信号？深度学习单通道语音分离方法最新综述 - 知乎 https://zhuanlan.zhihu.com/p/194329601

6、梁瀚明. 基于深度学习的单声道人声与伴奏分离算法研究[D]. 电子科技大学, 2018.

7、语音增强理论与实践 [（美）罗艾洲著；高毅等译] 2012年版

8、

9、

10、

锐单商城拥有海量元器件数据手册、IC替代型号，打造电子元器件IC百科大全！