音频基础知识
版权声明:Yadi
|
CC BY-NC-SA 2.5 CN
在数字通信、媒体存储和传输领域,音视频编解码技术起到了至关重要的作用,它能够有效地压缩音频和视频数据,减小存储和传输所需的带宽,并且保持较高的音视频质量。
本文介绍了音频基础知识,关于音频编解码见下篇文章 音频编解码。
1.了解声音
1.1 声波
- 原理
声音始于空气中的振动,如吉他弦、人的声带或扬声器纸盆产生的振动。这些振动一起推动邻近的空气分子,而轻微增加空气压力。压力下的空气分子随后推动周围的空气分子,后者又推动下一组分子,依此类推。高压区域穿过空气时,在后面留下低压区域。当这些压力波的变化到达人耳时,会振动耳中的神经末梢,我们将这些振动听为声音。 - 可视化波形
当您看到表示音频的可视化波形时,它反映了这些空气压力波。波形中的零位线是静止时的空气压力。当曲线向上摆动到波峰时,表示较高压力;当曲线向下摆动到波谷时,表示较低压力。表现为可视化波形的声波,如下图。(A.零位线 B.低压区域 C.高压区域)
1.2 波形测量
- 几个测量值描述了波形
- 振幅: 反映从波形波峰到波谷的压力变化。高振幅波形的声音较大;低振幅波形的声音较安静。
- 周期: 描述单一、重复的压力变化序列,从零压力,到高压,再到低压,最后恢复为零。
- 频率: 以赫兹 (Hz) 为单位测量,描述每秒周期数。(例如,1000 Hz 波形每秒有 1000 个周期。)频率越高,音乐音调越高。
- 相位: 以度为单位测量,共 360 度,表示周期中的波形位置。零度为起点,随后 90º 为高压点,180º 为中间点,270º 为低压点,360º 为终点。
- 波长: 以英寸或厘米等单位测量,是具有相同相位度的两个点之间的距离。波长随频率的增加而减少。
- 如下图。左侧为单个周期,右侧为完整的 20 Hz 波形。
(A. 波长 B. 相位度 C. 振幅 D. 一秒)
1.3 声波如何互相作用
- 在两个或更多声波相遇时,它们会彼此相加和减去
- 如果它们的波峰和波谷完全同相,则互相加强,因此产生的波形的振幅高于任何单个波形的振幅。
- 如果两个波形的波峰和波谷完全异相,则会相互抵消,导致完全没有波形。
- 然而,在大多数情况下,各种声波会存在不同程度的异相,产生比单个波形更复杂的组合波形。例如,表示音乐、语音、噪声和其他声音的复杂波形结合了各种声音的波形。
- 如图
同相声波互相加强
异相声波互相抵消
两个简单的声波组合成复杂的声波。
2.数字化音频
2.1 模拟音频和数字音频
- 在模拟音频和数字音频中,声音的传送和储存方式非常不同。
- 模拟音频:正负电压
麦克风将声音压力波转换成电线中的电压变化:高压成为正电压,低压成为负电压。当这些电压变化通过麦克风电线传输时,可以在磁带上记录成磁场强度的变化或在黑胶唱片上记录成沟槽大小的变化。扬声器的工作方式与麦克风相反,即通过音频录音和振动中的电压信号重新产生压力波。 - 数字音频:零和一
与磁带或黑胶唱片等模拟存储介质不同,计算机以数字方式将音频信息存储成一系列零和一。在数字存储中,原始波形被分成各个称为采样的快照。此过程通常称为数字化或采样音频,但有时称为模数转换。
2.2 模拟信号转数字信号的过程
- Sampling(采样)
我们可以通过一条曲线在坐标中显示连续的模拟信号,对原始信号按固定时间间隔进行采样。每秒采样次数称之为“采样率”。 - Quantization(量化)
原始信号采样后,需要通过量化来描述采样数据的大小。每个采样占用多少位称之为“位深/采样格式/采样位数” - Coding(编码)
将时间线上的每个sample数据转化为对应的二进制数据。采样数据经过编码后产生的二进制数据,就是PCM数据。
3.数字音频基础概念
3.1 采样率(Sample rate)
采样率是对声音信号每秒内进行采样的次数,单位Hz。
采样率越高,数字波形的形状就越接近原始模拟波形,声音的还原就越真实。
常见采样率:8000Hz、16000Hz、44100Hz、48000Hz
根据奈奎斯特-香农采样定理,只有采样频率高于原始模拟信号中最高频率的两倍时,才能把数字信号表示的模拟信号准确还原回去。例如,CD 的采样率为每秒 44,100 个采样,因此可重现最高为 22,050 Hz 的频率,此频率刚好超过人类的听力极限 20,000 Hz。
如下图(A.使原始声波扭曲的低采样率 B.完全重现原始声波的高采样率)
3.2 位深度(Bit-depth)/采样格式/采样位数
位深度是每个采样占用多少二进制位。
常见位深度:8bit、16bit、32bit、64bit,一般为16bit。
3.3 声道数(channel number)
- 单声道(mono)
数量小,缺乏对声音位置的定位。 - 双声道/立体声道(stereo)
由左右声道组成,改善对声音位置的定位。 - 四声环绕
由前左、前右、后左、后右组成。 - 5.1声道
四声环绕基础上,增加中场声道、低音,例如杜比音效。
3.4 编码格式
为了有效地压缩音频数据,减小存储和传输所需的带宽,需要进行编码。例如音频文件中的音频轨数据需要进行编码。
常见编码格式:mp3、aac、ac3、opus、g711。
3.5 封装格式
音频封装格式一般由 多媒体信息+音频流+封面流+歌词流 组成。
常见封装格式:mp3、m4a、flac、wav