Audio基本概念及处理流程
时间:2023-12-28 05:37:01
1.声音的三个要素:频率、振幅和波形
1.1、频率:
声频,即声音的音调, 音调越高,频率越大;音调越低,频率越小。 人类听觉的频率(音调)范围为20Hz--20KHz 。
1.2、振幅:
也就是声波的响度,一般来说就是声音的高低。 音量(响度)越大,振幅越大;音量越小,振幅越小 。
1.3、波形:
也就是说,在相同的频率和振幅下,钢琴和小提琴的声音听起来完全不同,因为它们的音色不同。波形决定了它所代表的声音的音色。不同的音色是因为它们的介质产生不同的波形。 音调越高,波长越短;音调越低,波长越长。
2、PCM
脉冲编码调制是通过等时间隔(即采样率时钟周期)采样模拟信号数字化的方法。
也就是说,在没有任何编码和压缩的情况下,对声音进行采样和量化。PCM最原始的音频数据是完全无损的,所以PCM虽然数据音质优良,但体积巨大。
2.1、模拟音频
声音拾取处理后,通过磁记录或机械刻度记录下来。此时,磁带上剩余磁性的变化或密度线,唱片槽中线条的起伏与声信号的变化成正比。
2.2、数字音频
首先转换音频文件,然后将这些电平信号转换为二进制数据保存。播放时,将这些数据转换为模拟电平信号,然后发送到喇叭播放。
2.3、采样(Sample)
在信号处理中,采样是将连续到离散时间的信号。
2.4、采样率
音频采样的次数每秒中对音频采样的次数(8K,16,K,22.05K,44.1K,48K)。
2.5、采样定理
所谓采样定理,又称香农采样定理,奈奎斯特采样定理,是信息,尤其是通信和信号处理。
采样定理指出,如果信号无限,采样频率是信号带宽的两倍,则可以从采样样本中完全重建原始连续信号。
2.6、声道(Channel)
它是指声音在录制或播放过程中在不同空间位置收集或回放的独立音频信号,因此声道数是声源数或回放过程中相应的扬声器数。
2.7.位宽/位深
用脉冲编码调制(PCM)在数字音频中,bit depth是每个Sample(采样)点占用的位数直接对应于每个采样的分辨率。
2.8.比特率/码率(Bit Rate)
比特率是指每秒传输的比特率(bit)数。单位为 bps(Bit Per Second),传输数据的速度越快,比特率越高。声音中的比特率是指单位时间内将模拟声音信号转换为数字声音信号后的二进制数据量,是间接衡量音频质量的指标,常用于16、20、24bit。 计算公式:
公式: 码率 = 采样率 * 采样位数 * 声道数 例如: 如果是CD音质,采样率44.1KHz,采样位数16bit,立体声(双声道), 码率 = 44.1 * 1000 * 16 * 2 = 1411200bps = 176400Bps,然后录制一分钟的音乐, 大概176400 * 1 * 60 / 1024 / 1024 = 10.09MB。
2.9、Frame
最小单位时间点包含一个或多个声音采样,最小单位时间点取决于声音采样设备,是一个时间点多个采样的集合。
2.10、重采样
当原始音频采样格式与目标要求的格式不匹配时,通常会进行音频采样。重采样分为上采样和下采样。下采样时需要提取信号(可能导致尾部音频数据丢失),上采样时需要插入信号(可能有噪音)。实现有理数级重采样时,将上采样与下采样相结合(如48kHz 转 44.1kHz时,将44.1kHz近似为44kHz,将48kHz下采样到4kHz,再上采样至44kHz来实现)。
3.声音处理过程
3.1.正常情况下的处理流程:
模拟信号 -> 输入设备(传递电压值)-> 声卡(采样量化(即设置声音大小等各种值)-> 磁盘(文件) -> 声卡 -> 输出设备 -> 模拟信号 。
3.2.扩展后的音频处理流程:
音频获取时增加 自动增益控制AGC(Auto Gain Control)、回声消除AEC( Acoustic Echo Cancellation )、静音检测VAD(Voice Activity Detection )。