第1章音频输入/输出接口

（1）声音的概念。
（2）配置Windows操作系统的音频选项。
（3）配置音频接口。
（4）配置Adobe Audition。
（5）测试Windows的输入/输出。
完成本章的学习需要大约90min，读者可从清华大学出版社的网站下载本章配套学习资源，扫描书中二维码观看讲解视频。

声音的基础知识　数字化音频　音频接口　配置音频　配置Adobe Audition　测试配置

范例
本章的范例素材是一段教师讲课的音频，音频时长大约为2min。范例音频中会出现一些诸如语序颠倒和多字漏字等日常口语失误造成的错误。本章将学习音频之间的连接方法，以及初步了解如何处理一段音频。通过Audition的音频编辑功能，将有问题的音频处理成理想的音频，如图1.1所示。

图 1.1
模拟
本章的模拟素材是一段《琵琶行》的朗诵音频，音频时长大约4min。在模拟练习中需要学会配置Windows操作系统的内置音频选项，初步了解Audition的功能，以及实现“波形编辑器”和“多轨编辑器”之间的转换，如图1.2所示。

图 1.2
1.1　预览完成的音频
（1）右击H：\Lesson01\范例文件\Complete01文件夹中的complete01.mp4文件，在弹出的快捷菜单中单击“打开方式”选择已安装的视频播放器对complete01.mp4文件进行播放，该文件中的音频是一段经过处理的教师讲课音频，音频完整且无杂音。
（2）关闭视频播放器。
（3）用Audition打开文件进行预览，在Audition菜单栏中选择“文件”→“打开”命令，再选择H：\Lesson01\范例文件\Complete01文件夹中的complete01.wav文件，并单击“打开”按钮。单击“播放”按钮，“波形编辑器”会对complete01.wav音频进行播放，如图1.3所示。

图 1.3
1.2　编辑声音
（1）右击H：\Lesson01\范例文件\Start01文件夹中的start01.mp4文件，在弹出的快捷菜单中单击“打开方式”选择已安装的视频播放器对start01.mp4文件进行播放。视频中的音频是一段未经过处理的教师讲课音频，音频中混有杂音、错读、漏读等问题，关闭该视频播放器。
（2）打开Audition菜单栏，选择“文件”→“打开”命令，导航至H：\Lesson01\范例文件\Start01文件夹，打开start01.sesx文件，此时可以看到“多轨编辑器”中的音频文件。
（3）选择“文件”→“另存为”命令，将文件命名为“demo01.sesx”，并将其保存在Start01文件夹中。
（4）“轨道1”中是一段不完整的音频，打开Start01文件夹中的“音频文字.docx”文档，对着文档的文字内容，将“多轨编辑器”中的音频片段通过拖动的方式进行衔接，并且将“轨道3”中3个短音频拖曳到“轨道1”中缺失的部分进行补齐，如图1.4所示。调整各个音频片段的位置使得音频播放流畅。

图 1.4
（5）单击“播放”按钮，仔细收听对比音频与文档内容，发现音频中有多余的部分，如1:09.6到1:10时间段。单击放大（时间）按钮，放大时间轴工具直至能看到1:09.6处，选择Audition工具栏中的“切断所选剪辑工具”，如图1.5所示。
（6）将鼠标指针放在轨道上，指针会变成“刀片”形状，在1:09.6和1:10时间处分别单击进行剪切，如图1.6所示。

图 1.6
（7）选择工具栏中的“移动工具”，选中剪切的音频片段，按Delete键删除，调整后续音频位置，使音频衔接流畅。
（8）单击“播放”按钮，重新听一遍音频，发现音频中0:47.4处的“孙吴”被读成了“东吴”，0:52.8处的“东吴”被读成了“孙吴”。选择工具栏中的“切断所选剪辑工具”，将“孙吴”和“东吴”剪切成独立的音频，选择“移动工具”，将“孙吴”音频片段移到“轨道2”，将“东吴”音频片段移到“孙吴”音频片段的位置，再将“孙吴”音频片段移到“东吴”音频片段的位置，如图1.7所示。这样就完成了对音频的调换，调换完成后注意音频片段之间的衔接是否流畅。
（9）使用“移动工具”单击“打铃声”音频片段，音频高亮显示，如图1.8所示。
 
                           图 1.7                                                                                   图 1.8
（10）双击“打铃声”音频片段，音频从“多轨编辑器”切换到“波形编辑器”，在“波形编辑器”中可以单独对选中的音频进行编辑，如图1.9所示。

图 1.9
（11）在“波形编辑器”中的音轨上方有一个矩形框，如图1.10所示。将鼠标指针移到类似圆的按钮时，出现“调整振幅”字样，单击右侧的数字，将其修改为“-5”，单击“播放”按钮，将“打铃声”音量降低。
（12）单击“编辑器”右侧的“三条线”按钮，如图1.11所示。
　　　　　　　　
（13）在弹出的面板中，单击demo01.sesx音频，音频从“波形编辑器”跳转到“多轨编辑器”。
（14）如果觉得某个音频片段声音过高或过低时，可对其音量进行调整，使得整段音频的音量一致。
（15）当整条轨道上的音频听起来有杂音时，可为音轨上的音频添加效果，消除杂音。单击Audition左侧的“效果组”面板，如图1.12所示。“效果组”面板中有若干插槽，拖动右侧的滚动条，可以查看全部的插槽。
（16）单击第一个插槽右侧的“向右三角形”按钮，为音频添加效果，在弹出的菜单中选择“振幅与压限”→“增幅”命令，如图1.13所示。

图 1.13
（17）在弹出的如图1.14所示的“组合效果-增幅”对话框中，单击“预设”右侧的“向下三角形”按钮，在弹出的下拉列表框中选择“+1dB提升”选项，在“增益”选项区域中，可以通过拖动左声道和右声道的滑块，也可以通过在右侧的参数框中输入数字调整增幅。
（18）关闭“组合效果-增幅”对话框，第一插槽的“切换开关状态”处于开启状态，图标为亮绿色（以实际软件中的颜色为准），可提高音频增幅，如图1.15所示。
  
                                                图 1.14                                                                        图 1.15
（19）单击第二个插槽的右侧的“向右三角形”按钮，为音频添加效果，在弹出的菜单中选择“振幅与压限”→“消除齿音”命令，如图1.16所示。

图 1.16
（20）在弹出的如图1.17所示的“组合效果-消除齿音”对话框中，单击“预设”右侧的“向下三角形”按钮，在弹出的下拉列表框中选择“高音DeEsser”选项。

图 1.17
（21）关闭“组合效果-消除齿音”对话框，第二插槽的“切换开关状态”处于开启状态，图标为亮绿色，可为音频消除齿音。
（22）单击第三个插槽的右侧的“向右三角形”按钮，为音频添加效果，在弹出的菜单中选择“调制”→“和声”命令，如图1.18所示。

图 1.18
（23）弹出如图1.19所示的“组合效果-和声”对话框，在“输出电平”选项区域中，拖动“干”和“湿”的滑块到50或在右侧的参数框中输入“50”。
（24）关闭“组合效果-和声”对话框，第三插槽的“切换开关状态”处于开启状态，图标为亮绿色，为音频添加了“和音”效果。
（25）根据音频的需要，可在效果组中的其他插槽中，为音频添加其他效果。
至此整个音频的效果制作就完成了，目的是让读者体验一下Audition软件的风貌。

图 1.19
1.3　声音的基础知识
1.3.1　声波 
一切发声的物体都在振动，振动停止，发声停止。吉他弦、人的声带的振动都会产生声音。这些振动一起推动邻近的空气分子，而轻微增加空气压力。压力下的空气分子随后推动周围的空气分子，后者又推动下一组分子，以此类推，高压区域穿过空气时，在后面留下低压区域。当这些压力波的变化到达人耳时，会振动耳中的神经末梢，然后人们将这些振动听为声音。
表示音频的可视化波形反映了这些空气压力波。波形中的零位线是静止时的空气压力。当曲线向上摆动到波峰时，表示较高压力；当曲线向下摆动到波谷时，表示较低压力。
1.3.2　波形测量 
下面介绍几个描述波形的测量值。
（1）振幅：振动物体离开平衡位置的最大距离称为振动的振幅，反映了从波峰到波谷的压力变化，振幅在数值上等于最大位移的大小。高振幅波形的声音较大；低振幅波形的声音较小。
（2）周期：描述单一、重复的压力变化序列，从零压力到高压，再到低压，最后恢复为零。
（3）频率：以赫兹（Hz）为单位，描述每秒周期数。频率越高，音乐音调越高。例如，1000Hz波形每秒有1000个周期。
（4）相位：以度为单位，共360°，表示周期中的波形位置。0°为起点，90°为高压点，180°为中间点，270°为低压点，360°为终点。
（5）波长：以英寸（1英寸=2.54厘米）或厘米等为单位，是具有相同相位的两个点之间的距离。波长随频率的增加而减小。
1.4　数字化音频
1.4.1　模拟音频和数字音频 
在模拟音频和数字音频中，声音的传送和存储方式都不相同。
（1）模拟音频：正负电压。
麦克风将声音压力波转换为电线中的电压变化：高压成为正电压，低压成为负电压。当这些电压变化通过麦克风电线传输时，可以在磁带上记录成磁场强度的变化，或者在黑胶唱片上记录成沟槽大小的变化。扬声器的工作方式与麦克风相反，即通过音频录音和振动中的电压信号重新产生压力波。
（2）数字音频：“0”和“1”。
与磁带或黑胶唱片等模拟存储介质不同，计算机以数字方式将音频信息存储为一系列“0”和“1”。在数字存储中，原始波形被分成各个称为采样的快照。此过程通常称为数字化或采样音频，也称为模数转换。例如，当把麦克风的声音录制到计算机中时，模数转换器将模拟信号转换为计算机可以存储和处理的数字采样。
1.4.2　采样率 
采样率表示音频信号每秒的数字快照数。该速率决定了音频文件的频率范围。采样率越高，数字波形的形状越接近原始模拟波形。低采样率会限制可录制的频率范围，这可导致录音表现的效果不佳。
常用的数字音频采样率及对应的品质级别、频率范围如表1.1所示。
表 1.1
采样率/Hz	品 质 级 别	频率范围/Hz
11025	较差的AM电台（低端多媒体）	0~5521
22050	接近FM电台（高端多媒体）	0~11025
32000	好于FM电台（标准广播采样率）	0~16000
44100	CD	0~22050
48000	标准DVD	0~24000
96000	蓝光DVD	0~48000

1.4.3　位分辨率 
位分辨率用于表示模数转换器对输入信号进行转换的精确程度。可以用像素与图片分辨率的关系来进行类比：相同尺寸的图片，像素越多，图片展现的细节越多。
CD音频使用16位分辨率，意味着一个音频电压值可以用65536个数值中的一个来表示。20位或24位分辨率可提供更高的精确度，但就像更高分辨率的图片一样，使用更高的位分辨率要占据更多的存储空间。在同样的采样率下，24位分辨率的音频文件比16位的音频文件体积大50%。但与使用更高的采样率不同的是，使用24位分辨率录制的音频听起来并不比16位的好。
综合考虑存储空间、使用便利性与保真度，使用44.1kHz采样率、24位分辨率进行录音是普遍采用的折中方案。
1.4.4　位深度 
位深度决定动态范围。采样声波时，为每个采样指定最接近原始声波振幅的振幅值。较高的位深度可提供更多可能的振幅值，产生更大的动态范围、更低的噪声基准和更高的保真度。
为获得最佳音质，Audition在32位模式下变换所有音频，然后在保存文件时转换为指定的位深度。
1.5　音频接口的相关基础知识
Audition要识别录制到计算机中的音频，需要将模拟音频信号转换为数字信号。同样，在播放音频时，需要将数字信号转换为模拟音频信号，这样才能够被听到。而“声卡”就是完成这种转换的硬件。声卡分为内置声卡和外置声卡。无论是哪种声卡，都可以完成模拟信号到数字信号（A/D）和数字信号到模拟信号（D/A）的转换。
本节重点介绍计算机的内置音频功能，为了更好地学习，需要准备以下设备。
（1）声源，配有3.5mm输出插孔的便携音乐播放器；配有内置传声器（俗称麦克风或话筒）的便携式计算机；推荐使用线路电平设备，也可以使用USB麦克风；需要注意的是，在安装Windows操作系统的计算机上使用这种无需驱动程序的设备，可能会引起明显的延迟。
（2）两端为3.5mm“公”插头的电缆，用来连接声源与计算机音频输入插孔。
（3）计算机内置的扬声器或可插入计算机的立体声输出插孔、配3.5mm立体声插头的入耳式/头戴式耳机。
知识链接
计算机的延迟
信号进行模拟到数字或者数字到模拟的转换过程中会发生延迟，在计算机中也是如此。即使目前最强大的民用处理器也无法保证不发生延迟。因此，计算机会将接收到的部分音频数据保存在缓存中。
缓存存储空间越大，计算机可以越自由地缓冲音频数据。而一个大的缓存也意味着输入信号在被处理之前会经历一段较长的送达时间。因此，听到的从计算机输出的音频相对于输入音频会有一段延迟。例如，在监听自己的声音的时候，从头戴式耳机中听到的声音相对于发出的声音会有延迟，而且会很明显。减小“采样缓存”的存储空间在把延迟降到最小的同时，降低了系统稳定性，延迟较小的时候会听到咔嗒声或
爆音。
1.6　配置安装Windows操作系统的计算机的音频选项
配置常见的Windows 7和Windows 11操作系统的输入和输出，使Audition可以正常运行。需要注意的是，Audition支持64位版本的Windows 7及以上操作系统，但不支持任何版本的Windows XP操作系统。
（1）对于Windows 7操作系统，单击“开始”→“控制面板”命令，在弹出的“控制面板”中双击“声音”图标。在Windows 11操作系统中，按“Windows+I”组合键，在弹出的“设置面板”中搜索“控制面板”，进入“控制面板”后选择“硬件和声音”，双击“声音”图标，弹出“声音”对话框。
（2）在“声音”对话框中选择“播放”选项卡，如图1.20所示。在“选择以下播放设备来修改设置”列表框中选择“扬声器”或“Headphones”选项，单击“确定”按钮。

注意：选择“播放”选项卡，然后单击“属性”按钮。在“属性”对话框中，选择“级别”选项卡，调整音量与平衡，并输出静音。

（3）在“声音”对话框中选择“录制”选项卡，选择“线路输入”选项，然后单击“设为默认值”按钮。

注意：选择“录制”选项卡，然后单击“属性”按钮。在“属性”对话框中，选择“级别”选项卡，调整音量与平衡，并输入静音。

（4）在“声音”对话框中选择“声音”选项卡，在“声音方案”下拉列表框中选择“无声”选项（在处理音频操作时系统发出的声音会产生干扰），单击“确定”按钮。
1.7　配置Audition
在对计算机的音频输入/输出配置完毕后，要进一步对Audition进行设置。
（1）在Audition的菜单栏中，选择“编辑”→“首选项”→“音频硬件”命令。
（2）在“设备类型”下拉列表框中选择MME选项，MME是系统中最基本的音频处理模式。WASAPI是从Windows Vista操作系统之后引入的UAA音频架构所属的API，简单来说就是微软公司自己的一套绿色通道，设置稍复杂，但可以降低处理延迟。
（3）在“默认输入”下拉列表框中选择之前选定的默认输入设备；在“默认输出”下拉列表框中选择之前选定的默认输出设备；“主控时钟”为默认设置。
（4）设置“等待时间”为“200”。等待时间决定了音频在经过计算机处理时的延迟时间。低数值意味着经过系统时引发的延迟较小，而高数值可增加稳定性。
（5）设置“采样率”为“44100”，然后单击“确定”按钮。
（6）选择“编辑”→“首选项”→“音频声道映射”命令，将Audition的声道映射到硬件的输入/输出。单击“确定”按钮，关闭“首选项”对话框。
1.8　测试在Windows操作系统中音频的输入/输出
（1）选择“文件”→“新建”→“音频文件”命令，打开“新建音频文件”对话框，如图1.21所示。
（2）在“文件名”文本框中输入文件的名称。
（3）采样率为之前在“首选项”对话框中设定的默认值44100Hz。
（4）设置“声道”为“立体声”。
（5）位深度的位数用于计算音量、音效等方面的变化，所以尽可能选择较高的值，此处选择“32（浮点）”选项。
（6）单击“确定”按钮，关闭“新建音频文件”对话框。
（7）单击如图1.22所示的“录制”按钮，开始录制声音。可以看到“波形编辑器”窗口中有波形显示。
　　　　　　　　
（8）将播放指示器拖曳至文件最开始处。单击“播放”按钮，可以听到录制的音频。单击“停止”按钮可停止播放。
（9）测试“多轨编辑器”的录音与播放。选择“文件”→“新建”→“多轨会话”命令。打开“新建多轨会话”对话框，如图1.23
所示。
（10）在“会话名称”文本框中输入文件名称，设置“模板”为“无”、“采样率”为“44100”。
（11）设置“位深度”为“32（浮点）”，然后在“混合”的下拉列表框中选择“立体声”选项。
（12）单击“确定”按钮关闭“新建多轨会话”对话框。
（13）单击“录制”按钮和“输入/输出”按钮，准备好一条音轨，如图1.24所示。

图 1.24

注意：输入将会自动与设定的默认输入相连接。单击“输入”右侧的按钮，在下拉列表框中选择“单声道”选项，单一音轨输入，如果有多输入音频接口并希望选择默认选项之外的输入，可以打开“首选项”对话框下的硬件区进行设置。

（14）单击“录制准备按钮”然后单击“录制”按钮。如果所有连接正确且所有电平值设置恰当，可以看到“多轨编辑器”窗口中有波形显示。录下数秒音频。
（15）将播放指示器拖曳至文件最开始处。单击“播放”按钮，可以听到录制的音频；单击“停止”按钮停止播放。
1.9　关于外部连接器
1. 外部连接器类型
外部连接器的类型众多，在使用外部连接器时应注意以下内容。
（1）对能与多种类型计算机接口，如USB、FireWire（火线）、Thunderbolt（雷电）等连接的外部连接器，应通过较长的录制片段逐个尝试并比较，选择性能较好的连接选项。
（2）专业接口经常拥有比内置音频I/O更强大的功能，因此有单独的控制面板用来跟踪信号、控制电平等。
（3）外部连接器通常有不止一组立体声输入/输出插孔。在选择默认输入/输出时，与计算机内置设备相比，有更大的选择空间。
（4）USB接口是即插即用的，它不需要第三方驱动程序。然而，配合接口使用的第三方ASIO或WDM驱动程序可以使其功能最大化并减少延迟。
（5）Windows计算机，不要使用标有“Emulated（模拟）”的驱动，如“ASIO（模拟）”。这种驱动程序效果很不好。
（6）一些连接器具有零延迟监听的特性。可将输入混音后直接送至输出，混音通常由显示在屏幕上的一个应用来控制，这样可以消除由于计算机处理引入的延迟。
（7）对于ASIO接口，Audition默认独占其所有的连接。为了使得运行中的其他应用程序可以连接到ASIO接口，选择“首选项”→“音频硬件”选项，并选中对话框中的“在后台释放ASIO驱动”复选框。这样在Audition没有录音时，其他软件可以使用ASIO接口。
2. 音频连接器/计算机接口
外部音频连接器可通过下列方式与计算机通信。
（1）USB接口。USB 2.0可以通过一根连接外部设备与计算机USB接口的线缆汇集传输几十个信道的音频。当然，实际上所有的USB 2.0都与USB 3.0接口兼容。USB 1.1接口也可供要求不太苛刻的应用软件使用，通常可以汇集6个信道的音频流，使之适用于营造环绕音效。像USB这种兼容模式的接口可以即插即用，但大多数专业接口使用特定的驱动程序，以提高速度和效率。
（2）FireWire（火线）接口。与USB接口相似，火线也需要用一根线缆连接外部设备与计算机，但其连接器的针脚与USB不同。尽管火线仍被普遍使用，但与USB相比已有些黯然失色。这主要是因为很多台式计算机不再配有火线插孔，大多数音频连接器明确要求计算机具备火线芯片组，火线所提供的性能优势在计算机的接口性能不够强大的时候才显得重要。一些音频连接器同时支持火线和USB 2.0接口。值得注意的是，火线有两种常见的传输速率：400Mb/s（FireWire 400）和800Mb/s（FireWire 800）。
（3）PCIe卡。PCIe卡可以直接插入计算机主板上的对应插槽，它提供了连接计算机最直接的途径。但它不常用，因为USB和火线使用更方便—不需要打开计算机主机箱进行连接，而且实际性能也不会降低。
（4）ExpressCard。ExpressCard接口适配于便携式计算机的ExpressCard插槽，但也同样被USB和火线接口占了优势。
（5）Thunderbolt（雷电）接口。Thunderbolt是一种使用线缆连接的相对较新的接口，使用日益广泛。在新的Mac计算机上，它是除了USB 3.0接口之外的唯一选择。虽然至本书写作时，支持Thunderbolt的连接器还不多，但它能够提供与PCIe相似的接口性能，同时兼具与USB和火线接口相媲美的兼容性。
一、 模拟练习
打开H：\Lesson01\模拟练习\Complete01中的complete01.sesx文件进行浏览播放，按照以下要求根据本章所学内容，做一个类似的课件。课件资料已完整提供，获取方式见前言。
要求1：学会配置安装Windows操作系统的计算机的内置音频选项。
要求2：为Windows 7和Windows 11操作系统配置音频接口。
要求3：在Windows操作系统中配置好Audition，测试配置，保证连接正确。
要求4：初步了解Audition的功能，以及“波形编辑器”和“多轨编辑器”的转换。
二、 自主创意
针对某一个有杂音，存在错读、漏读的音频文件，应用本章所学编辑声音的知识，使用“效果组”面板为音频消除杂音和齿音，并在Audition中剪辑以修正音频中出现的口误。
三、 理论题
1. Audition中对音频的剪切使用什么工具？在不同的版本中工具的名称有什么区别？
2. 模拟音频和数字音频有什么区别？
3. 怎样新建一个音频文件？