音频相关的基本概念

时间：2022-10-21 10:00:01 pcm260变送器

音频相关的基本概念

1. 声音的本质

声音的本质是介质中波的传播，声波的本质是一种波，一种物理量。两者不同，声音是抽象的，是声波的传播，声波是物理量。

2. 声音的三要素

响度(loudness)： 人音的大小(俗称音量)由振幅主观感觉（amplitude）与人离声源的距离决定，振幅越大，响度越大，人与声源的距离越小，响度越大。

音调(pitch)：由频率决定，音调越高，频率越高（频率单位Hz，赫兹)人耳听觉范围为20~2万Hz。20Hz以下是次声波，2万Hz以上称为超声波)。

音色(Timbre)： 波形决定了声音的音调。由于不同对象材料的特点，声音有不同的特点，音色本身是抽象的，但波形是抽象和直观的性能。波形因音调而异，可以通过波形来区分不同的音调。
傅立叶理论（Jean Baptiste Joseph Fourier，1768-1830。他提出任何周期信号都可以看作是一系列正弦波和余弦波的叠加。 ）告诉我们，时域中的任何电信号都可以叠加一个或多个具有适当频率、范围和相位的正弦波。

3.几个基本概念

比特率(码率)：比特率是每秒传输的比特数。单位为比特（bps位/秒)。指音频每秒播放的数据量，单位为 bit，例如对于 PCM 流动，采样率为 44100Hz，采样大小为16，声道数为16 2.码率为:44100* 16 * 2 = 1411200 bps。
关于音频文件大小计算文件大小 = 采样率 * 录音时间 * 采样位数 / 8 * 通道数（字节）
采样：采样是将连续的时间信号变成离散的数字信号。
采样率：简单来说就是每秒获取声样的次数。

声音是一种具有音频频率和振幅特征的能量波。所以采样过程，其实就是提取一定的频率值。一秒钟提取的点越多，得到的信息就越多；采样率越高，声音质量越好。但并不是说采样率越高越好，因为人耳听觉的范围是 20Hz ~ 20kHz。一般来讲,44100HZ采样率已满足基本要求。

采样数：采样数与采样率和时间有关，如采样率 44100Hz，采样时间为1s，那么1s 内采样数为 44100 个。
采样位数?：?采样位数也称为采样大小或量化位数。量化深度表示每个采样点的比例，音频的量化深度一般为 8 、16 、32 例如：量化深度为 8bit 每个采样点都可以表示 256 量化深度为不同的量化值 16bit 每个采样点都可以表示 65536 量化值不同。
??定量深度影响声音质量。显然，位数越多，定量波形越接近原始波形，声音质量越高，存储空间越大；位数越少，声音质量越低，存储空间越少。CD音质是 16 bits.
??
?- 通道数：单声道、双声道和立体声道是常见的通道数。
??单声道的声音只能由一个扬声器发出，或者可以处理成两个扬声器输出相同声道的声音。当单声道信息通过两个扬声器回放时，我们可以清楚地感觉到声音从两个扬声器中间传输到我们的耳朵，无法判断声源的具体位置。
??双声道有两个声音通道。其原理是，当人们听到声音时，他们可以根据左耳和右耳之间的相位差来判断声源的具体位置。在录音过程中，将声音分配到两个独立的声道，从而达到良好的声音定位效果。
??在记录声音时，如果每次生成声波数据，则称为单声道；每次生成两个声波数据，称为双声道（三维声）。三维声（双声道）的存储尺寸是单声道文件的两倍。
音频帧：?音频跟视频不太一样，视频的每一帧就是一副图像，但是因为音频是流式的，本身是没有一帧的概念的。而且有些时候确实没有办法说一帧怎么怎么样。比如对于 PCM 采样率为流量 44100Hz，采样位数为 16，通道数为 2.一秒钟的音频固定大小:44100162 / 8 字节。但是人们可以规定一帧的概念，比如amr 帧相对简单，规定每次 20ms 音频是一帧。
奈奎斯特采样定律(Nyquist)：当采样率大于或等于连续信号最于或等于连续信号最高频率重量的2倍时，采样信号可以用来完美重构原始连续信号.1KHz，48kHz。
PCM 流
PCM 当原始包含声音时，数据将保存到一系列 buffer 中，这串 buffer，就采用了 PCM 格式存储。音频采样过程通常称为脉冲编码调制编码，即 PCM（Pulse Code Modulation）编码，采样值也叫 PCM 值。
??在 windows 中，通过 WaveIn 或者 CoreAudio 收集声音的原始数据是一串PCM格式的buffer。

4.编码过程

编码过程: 模拟信号-> 采样-> 量化-> 编码->数字信号

4.1 采样

所谓采样，就是在时间轴上数字化信号。

根据奈奎斯特定律(也称采样定律)，采样是最高频率的两倍。人类听觉的频率(音调)范围是 20Hz–20KHz 。所以至少要大于 40KHz。采样频率一般为44.1kHz，这样可以保证声音的到达 20kHz 也可以数字化.1kHz 就是代表 1 秒会采样 44100次。

4.2 量化

如何表示每个采样？这涉及量化。
??量化是指在振幅轴上数字化信号。如果使用它 16（8/32）比特位的二进制信号来表示一个采样，那么一个采样所表示的范围即为【-32768，32767】。

4.3 编码

每个量化都是一个采样。存储这么多采样称为编码。所谓编码，就是按照一定的格式记录采样和量化的数字数据，如顺序存储或压缩存储等。
??音频裸数据格式通常称为脉冲编码调制(PCM)数据。一段 PCM 数据通常需要量化格式(位深) 16bit）、描述采样率和声道数的概念。
??还有一个概念来描述声音格式的大小，即比特率，1 秒内的比特数用于衡量音频数据单位时间内的容量。

4.4 数字信号

用高低电平表示编码数据。

5. 与音频处理有关

5.算法名称及部分功能解释

AEC（Acoustic Echo Cancellation）回声消除算法
??在视频或音频通话过程中，当地声音传输到对端播放后，声音将被对端麦克风
收集，混合对端声音传输到当地播放，使当地播放的声音包含当地原始收集的声音，导致主观感觉听到自己的回声。 WebRTC 例如，建议移动设备使用回声抑制模块 AECM 算法，

AGC（Automatic Gain Control）增益控制/自动增益控制
手机等设备收集的音频数据有时响度高，有时响度低，导致声音大小，影响观众的主观感受。自动增益控制算法根据预先配置的参数对输入声进行正负调节，使输出声适合人耳的主观感受。

VAD（Voice Activity Detection）端点检测/静音检测/语音端点检测/语音边界检测
静音检测的基本原理：计算音频的功率谱密度。如果功率谱密度小于阈值，则视为静音，否则视为声音。静音检测广泛应用于音频编码AGC、AECM 等。

NS （Noise Suppression）噪声抑制/降噪/主动噪声控制/噪声消除/主动降噪

手机等设备收集的原始声音往往包含背景噪声，影响观众的主观体验，降低音频压缩效率。以 Google 著名的开源框架 WebRTC例如，我们严格测试了噪声抑制算法，发现该算法可以很好地抑制白噪声和有色噪声。满足视频或语音通话的要求。其他常见的噪声抑制算法，如开源项目 Speex 噪声抑制算法也有很好的效果，适用范围更广WebRTC 噪声抑制算法更广泛，可以在任何采样率下使用。
CNG产生舒适的噪音（Comfortable Noise Generation）
?舒适噪声的基本原理：根据噪声的功率谱密度，人工构造噪声。广泛应用于音频编码解码器。在编码端计算静音时的白噪声功率谱密度，编码静音时间和功率谱密度信息。在解码端，根据时间信息和功率谱密度信息重建随机白噪声。
?
ANC（Active Noise Control）噪声抑制/降噪/主动噪声控制/噪声消除/主动降噪 ANS（Automatic Noise Suppression）噪声抑制/降噪/主动噪声控制/噪声消除/主动降噪
NC （Noise Cancellation）噪声抑制/降噪/主动噪声控制/噪声消除/主动降噪
AFC（Acoustic Feedback Cancellation）啸叫抑制/自适应声反馈消除/声反馈消除
EQ 音频均衡
Dereverberation 混响去除
Beam Forming 波束形成
Speech Recognition 语音识别
ASR（Automatic Speech Recognition）语音识别
KWS（Keyword Spotting）语音唤醒
Speech Enhancement 语音增强
Audio encode 音频编码
Microphone Array 麦克风阵列
Voiceprint recognition 声纹识别
Sound source localization 声源定位

5.2 部分服务

压缩器（compressor）：减小高信号的输出
自动增益（AGC）：对高信号进行降低，对低信号进行升高
反馈消除（AFC）：使某一频率点的输入信号迅速衰弱达到阻止此频率信号通过的效果，避免啸叫产生
回声消除（AEC）：进行回声消除
闪避器：保证同一时刻只有输入信号效果好
延时器（Delayer）：延缓信号输出时间
音箱管理器（main mixer）：可以对输出信号进行一些微调
限幅器（limiter）：控制输出信号的最大值

6.音频采集的来源是什么，如何计算？

首先音频的来源一般为麦克风(MediaRecorder.AudioSource.MIC)

采样率（单位：赫兹）
每秒钟音频采样点个数(8000/44100Hz)，模拟信号数字化的过程，用0101来表示的数字信号

声道

AudioFormat.CHANNEL_IN_MONO 单声道，一个声道进行采样
AudioFormat.CHANNEL_IN_STEREO 双声道，两个声道进行采样

音频采样精度
指定样式的数据的格式和每次采用的大小,数据返回的格式PCM格式，每次采用的位宽为16bit,一般都采用这个 AudioFormat.ENCODING_PCM_16BIT(官方文档表示，该采样精度保证所有设备都支持)

每秒钟采样的大小
采样率 * 采样大小 * 声道数
每秒钟采样的大小=16bit( 位宽) * 2( 双通道) * 44100(每次采样的次数 hz) =1411200b=1411.2kbps

7.音频使用场景及应用

在现实生活中，音频（audio）主要用在两大场景中:语音(voice)和音乐(music)。语音主要用于沟通通信，如打电话，现在由于语音识别的发展，人机语音交互也是语音的一个应用，目前正在风口上，好多大厂都推出了智能音箱。音乐主要用于欣赏，如音乐播放。
音频开发的主要应用：

7.1音频播放器

录音机
语音电话
音视频监控应用
音视频直播应用
音频编辑/ 处理软件(ktv 音效、变声, 铃声转换)
蓝牙耳机/音箱

7.2 音频开发的具体内容：

音频采集/播放;
音频算法处理（去噪、VAD 检测、回声消除、音效处理、功放/增强、混音/分离，等等）;
音频的编解码和格式转换;
音频传输协议的开发（SIP，A2DP、AVRCP，等等）。

8.混音技术介绍

混音：顾名思义，就是把两路或者多路音频流混合在一起，形成一路音频流。
混流：则是指音视频流的混合，也就是视频画面和声音的对齐，也称混流。

并非任何两路音频流都可以直接混合。

8.1 两路音视频流，必须符合以下条件

格式相同，要解压成 PCM 格式。
采样率相同，要转换成相同的采样率。主流采样率包括：16k Hz、32k Hz、44.1k Hz 和 48kHz。
帧长相同，帧长由编码格式决定，PCM 没有帧长的概念，开发者自行决定帧长。为了和主流音频编码格式的帧长保持一致，推荐采用 20ms 为帧长。
位深（（Bit-Depth））式或采样格式 (Sample Format) 相同，承载每个采样点数据的 bit 数目
要相同。
声道数相同，必须同样是单声道或者双声道 (立体声)。这样，把格式、采样率、帧长、
位深和声道数对齐了以后，两个音频流就可以混合了。

8.2 回声消除、噪音抑制和静音检测等处理

在混音之前，还需要做回声消除、噪音抑制和静音检测等处理。回声消除和噪音抑制属于语音前处理范畴的工作。在**编码之前，采集、语音前处理、混音之前的处理、混音和混音之后的处理应该按顺序进行。**静音抑制（VAD，Voice Activity Detect）可做可不做。对于终端混音，是要把采集到的主播声音和从音频文件中读到的伴奏声音混合。如果主播停顿一段时间不发出声音，通过 VAD 检测到了，那么这段时间不混音，直接采用伴奏音乐的数据就好了。然而，为了简单起见，也可以不做 VAD。主播不发声音的期间，继续做混音也可以（主播的声音为零振幅）。

9. 音频重采样

重采样即是将音频进行重新采样得到新的采样率的音频。

重采样的原因???
音频系统中可能存在多个音轨，而每个音轨的原始采样率可能是不一致的。比如在播放音乐的过程中，来了一个提示音，就需要把音乐和提示音都混合到 codec 输出，音乐的原始采样率和提示音的原始采样率可能是不一致的。问题来了，如果 codec 的采样率设置为音乐的原始采样率的话，那么提示音就会失真。因此最简单见效的解决方法是：codec 的采样率固定一个值（44.1KHz/48KHz），所有音轨都重采样到这个采样率，然后才送到音轨都重采样到这个采样率，然后才送到 codec，保证所有音轨听起来都不失真，保证所有音轨听起来都不失真。

音频相关的基本概念

相关文章