音频基础知识

2022-08-03

在数字通信、媒体存储和传输领域，音视频编解码技术起到了至关重要的作用，它能够有效地压缩音频和视频数据，减小存储和传输所需的带宽，并且保持较高的音视频质量。
本文介绍了音频基础知识，关于音频编解码见下篇文章音频编解码。

1.了解声音

原理
声音始于空气中的振动，如吉他弦、人的声带或扬声器纸盆产生的振动。这些振动一起推动邻近的空气分子，而轻微增加空气压力。压力下的空气分子随后推动周围的空气分子，后者又推动下一组分子，依此类推。高压区域穿过空气时，在后面留下低压区域。当这些压力波的变化到达人耳时，会振动耳中的神经末梢，我们将这些振动听为声音。
可视化波形
当您看到表示音频的可视化波形时，它反映了这些空气压力波。波形中的零位线是静止时的空气压力。当曲线向上摆动到波峰时，表示较高压力；当曲线向下摆动到波谷时，表示较低压力。表现为可视化波形的声波，如下图。(A.零位线 B.低压区域 C.高压区域)

在模拟音频和数字音频中，声音的传送和储存方式非常不同。
模拟音频：正负电压
麦克风将声音压力波转换成电线中的电压变化：高压成为正电压，低压成为负电压。当这些电压变化通过麦克风电线传输时，可以在磁带上记录成磁场强度的变化或在黑胶唱片上记录成沟槽大小的变化。扬声器的工作方式与麦克风相反，即通过音频录音和振动中的电压信号重新产生压力波。
数字音频：零和一
与磁带或黑胶唱片等模拟存储介质不同，计算机以数字方式将音频信息存储成一系列零和一。在数字存储中，原始波形被分成各个称为采样的快照。此过程通常称为数字化或采样音频，但有时称为模数转换。

AudioBase6

采样率是对声音信号每秒内进行采样的次数，单位Hz。
采样率越高，数字波形的形状就越接近原始模拟波形，声音的还原就越真实。
常见采样率：8000Hz、16000Hz、44100Hz、48000Hz

根据奈奎斯特－香农采样定理，只有采样频率高于原始模拟信号中最高频率的两倍时，才能把数字信号表示的模拟信号准确还原回去。例如，CD 的采样率为每秒 44,100 个采样，因此可重现最高为 22,050 Hz 的频率，此频率刚好超过人类的听力极限 20,000 Hz。

如下图(A.使原始声波扭曲的低采样率 B.完全重现原始声波的高采样率)
AudioBase7

位深度是每个采样占用多少二进制位。
常见位深度：8bit、16bit、32bit、64bit，一般为16bit。

为了有效地压缩音频数据，减小存储和传输所需的带宽，需要进行编码。例如音频文件中的音频轨数据需要进行编码。
常见编码格式：mp3、aac、ac3、opus、g711。

音频封装格式一般由多媒体信息+音频流+封面流+歌词流组成。
常见封装格式：mp3、m4a、flac、wav

数字音频基础知识

音频编码原理