209 210 第 5 章数字音频处理声音是多媒体的重要组成部分之一。本章从音频的基本概念谈起，介绍声音如何产生和传播，声音的特性、声音的质量、声音信号的数字化过程、常用音频文件格式，讨论语音识别技术和语音合成技术，介绍MIDI基本概念和音乐合成方法，学习音频软件录音机的使用和Adobe Audition的基本使用方法。 5.1 音频基本概念 5.1.1 声音的产生和传播声音是一种机械波，是由物体振动产生的。正在发声的物体称为声源。声音的传播需要介质，气体、固体、液体都能传播声音，不同的介质传播声音的速度是不同的，在相同的条件下，声音在固体中传播速度最快，在气体中传播速度最慢。常温时，声音在空气中的传播速度是340m/s。声音以声波的形式通过介质将声源的振动向外传播，例如，声音在空气中的传播就是由物体振动引起周围空气的振动，振动的空气又引起耳膜振动，再通过耳蜗传到听觉神经上，于是人就感觉到声音了。 5.1.2 声音的特性声音特性的三个要素是音调、音强和音色。音调是指声音的高低，由声波的频率决定，频率大，音调就高，频率小，音调就低。频率的单位是赫兹（Hz），就是物体每秒钟振动的次数。人耳的听觉范围是20Hz～20 000Hz。频率低于20Hz的声波称为次声波，频率高于20 000Hz的声波称为超声波。次声波和超声波在各个领域都有广泛的应用，例如，可以通过探测地震、台风、海啸、火山爆发等自然灾害发生前辐射出的次声波，预测自然灾害；可以利用超声波在工业上进行探伤，在医学上进行B超检测、超声碎石，在航海上进行导航、测量海深。音强又称为响度或音量，是指声音的大小，由声波的振幅决定，如果频率不变，振幅越高则音强越大。音强可以用“声强”（I）来量度，声强的单位是“W／m2”，是指1s内垂直穿过单位面积的声能。日常生活中，为了符合人们对声音强弱的主观感觉，音强通常以分贝（dB）为单位。分贝是声源功率与基准声功率比值的对数再乘以10。音色又称为音质，指声音的特色，由声波的形状决定。音色是辨别不同声源的依据。例如，不同的乐器演奏同一个乐音，音调和音强都一样，但人们能够分辨出不同乐器，原因就是它们的音色不同。同样道理，人们能区别不同人发出的声音，也是因为他们的音色不同。 5.1.3 声音的质量评价声音的质量有客观质量度量和主观质量度量两种方法。客观质量度量方法根据声音的技术指标，例如频率范围和信噪比等进行评价。主观质量度量方法人为对声音质量进行评分。根据声音的频率范围，可以把声音的质量分为4级，由高到低分别是数字激光唱盘CD-DA质量，其频率范围为10Hz~20kHz；调频广播FM（frequency modulation）质量，其频率范围为20Hz~15kHz；调幅广播AM（amplitude modulation）质量，其频率范围为50Hz~7kHz；电话的话音质量，其频率范围为200Hz~3400Hz。 5.1.4 声音信号的数字化声音信号是典型的模拟信号，无论在时间上还是幅度上都是连续的。计算机只能处理数字信号，而数字信号是离散的。所以，要用计算机对声音进行处理，必须将模拟声音信号转换为数字声音信号。声音信号的数字化过程一般分为采样、量化和编码三个步骤。 1. 采样采样是将时间上和幅度上都连续的模拟信号，转换成时间上离散但幅度上仍然连续的信号的过程。每秒钟采样的次数称为采样频率，采样频率越高，声音的还原就越真实自然。目前常用的采样频率有11.05kHz、22.05kHz和44.1kHz，其中22.05kHz可以达到FM广播的音质，44.1kHz则可以达到CD的音质。根据奈奎斯特理论（Nyquist theory），只要采样频率不低于模拟信号最高频率的两倍，就能把用数字表达的信号还原成原来的信号，这称为无损数字化过程。例如，电话话音的频率约为300Hz～3.4kHz，那么只要采样频率大于6.8kHz，采样后的信号就可以不失真地还原，所以电话话音的采样频率通常取为8kHz。 2. 量化采样把模拟信号变成时间上离散的信号，但是信号在幅度上依然是连续的，因此还必须进行量化处理。量化处理把幅度上连续取值的模拟量转换为离散量，量化后的样本用二进制数表示。每个样本使用的二进制数位数的多少称为量化精度，一般常用的量化精度有8位、12位和16位。如果量化精度是8位，那么声音样本的取值范围是0～255；如果量化精度是16位，那么声音样本的取值范围是0～65 535。量化精度越高当然声音质量越好，但同时也意味着数据量越大。 3. 编码声音信号经过采样和量化后已经是数字信号了，但是为了在保证声音质量的前提下使音频数据的数据量尽可能小，以便计算机存储和网络传输，就需要对音频数据进行编码。编码有非压缩与压缩两种方式。通常.wav文件采用的线性PCM（脉冲编码调制）编码是一种非压缩方式的编码，而.mp3文件采用的MPEG Layer 3编码则是一种压缩方式的编码。 5.2 音频文件格式在多媒体计算机中，存储声音信息的文件格式主要有WAV文件、MP3文件、WMA文件、MIDI文件等。 1. WAV文件 WAV文件的扩展名为.wav，是Microsoft公司开发的一种声音文件格式，被Windows平台及其应用程序所支持。WAV文件符合RIFF（resource interchange file format，资源交换文件格式）文件规范，是目前PC机上最为流行的声音文件格式，几乎所有的音频编辑软件都能识别WAV文件。WAV文件用不同的采样频率对声音的模拟波形进行采样，得到一系列离散的采样点，再以不同的量化位数（8位或16位等）把这些采样点的值转换成二进制数，保存成声音的WAV文件，即波形文件。WAV格式的声音文件质量很高，但是该格式存放的一般是未经压缩处理的音频数据，所以文件尺寸往往很大。例如，一分钟高质量的WAV文件约占用10MB的存储空间。WAV文件数据量的具体计算公式是： WAV文件数据量（Byte）=采样频率（Hz）×量化位数（位）× 声道数／8×持续时间（秒）例如，采样频率44.1kHz，量化位数16位，立体声，持续时间为1min，WAV文件的大小为44 100×16×2×60/8=10 584 000B=10.584MB。 2. MP3文件 MP3文件的扩展名为.mp3，这种诞生于德国的声音文件格式风靡世界，成为当今主流的音频格式。MP3是一种采用国际标准MPEG中的第三层音频压缩模式（MPEG-1 Audio Layer 3），对声音信号进行有损压缩的格式。MP3采用心理声学的编码技术，丢弃音频数据中对听觉不重要的数据，只保留人耳感觉最灵敏的音频数据，使人耳觉察不出显著的差异，这样MP3文件就能在音质较好的同时实现很高的压缩比。MP3文件的压缩比一般可以达到10∶1~12∶1，这意味着录制相同长度的音频文件时，MP3格式的文件只有WAV格式文件的1/10～1/12大小，即1分钟的MP3文件大约只有1MB大小。MP3音频可以按照不同的位速进行压缩。位速表示每秒音频所需的编码数据位数，位速越高，文件中包含的原始音频信息越多，回放时音频质量也越高。MP3允许使用的位速有32、40、48、56、64、80、96、112、128、160、192、224、256和320kbps，与此对照的是，CD上未经压缩的音频位速是1411.2 kbps（16位/采样点×44 100采样点/秒×2通道）。 3. WMA文件 WMA（Windows Media Audio）文件的扩展名为.wma，是Microsoft公司开发的声音文件格式，因此不需要安装额外的播放器，只要安装了Windows操作系统就可以直接播放WMA文件。另外，WMA文件比MP3文件具有更高的压缩比，文件一般可以达到18∶1。同时，WMA文件支持音频流（stream）技术，所以适合网上在线播放。总之，WMA格式文件已成为MP3格式文件强有力的竞争对手。WMA文件还有一个优点是可以通过数字版权保护（Digital Rights Management，DRM）技术限制播放时间、播放次数或者播放的机器，从而有效防止盗版。 4. MIDI文件 MIDI（Musical Instrument Digital Interface，乐器数字接口）文件的扩展名为.mid。MIDI文件并不保存真实采样数据的声音，而只是一组音乐演奏指令序列，指令告诉音源设备要做什么，怎么做，例如用什么乐器演奏、按哪个琴键、按键力度多大、按键时间多长等。因此，MIDI文件通常很小，1分钟的MIDI文件大约只有5~10KB，很适合储存和网络传播。既可以用音乐制作软件创作编辑MIDI文件，也可以通过声卡的MIDI接口把外接音序器演奏的MIDI乐曲输入计算机。 5.3 语音识别和语音合成随着计算机的日益普及和广泛应用，传统的通过键盘和鼠标的人机交互模式已经越来越不能满足人们的需要，因此人们希望把人类社会中最重要和最方便的交流方式—自然语言应用于人机通信。语音识别和语音合成技术正是为了满足这种需求而不断发展进步的。 5.3.1 语音识别语音识别让机器通过识别和理解过程把语音信号转变为相应的文本或命令。语音识别解决计算机“听”的问题，让计算机能听懂人类的自然语言。语音识别的历史开始于20世纪中叶。20世纪50年代，AT&T Bell实验室实现了世界上第一个可以识别十个英文数字的语音识别系统——Audry系统。20世纪60年代至70年代，计算机技术的发展为语音识别的实现提供了硬件和软件基础，而语音识别理论的发展也使语音识别技术发生了质的变化，其中语音识别中的经典算法——动态时间规整算法（Dynamic Time Warping，DTW）在实现孤立词识别系统中获得了广泛的应用，与此同时，另一种语音识别方法——隐马尔可夫模型（Hidden Markov Model，HMM）则使大词汇量连续语音识别系统的开发成为可能。20世纪80年代至90年代，语音识别技术进一步深入发展，成功突破了三大技术障碍——大词汇量、连续语音和非特定人。世界上第一个非特定人的大词汇量的连续语音识别系统——SPHINX系统的成功研制被认为是语音识别史上的里程碑。随后，基于语音识别技术的系统和产品层出不穷，例如IBM公司的Via Voice，Sun公司的VoiceTone等。语音识别技术具有广泛的应用领域和广阔的应用前景，已经进入工业、通信、汽车、医疗、家电等各个领域。语音识别系统可以按照多种方式进行分类：（1）根据识别系统的词汇量大小分类。小词汇量语音识别系统：一般包括几十个词的语音识别系统；中等词汇量的语音识别系统：一般包括几百个词至几千个词的语音识别系统；大词汇量语音识别系统：一般包括几千个词至几万个词的语音识别系统。（2）根据说话人的说话方式分类。孤立词语音识别系统：输入每个词后都要停顿；连接词语音识别系统：输入系统要求对每个词都清楚发音，可以出现连音；连续语音识别系统：输入的是自然流利的连续语音，可以出现大量连音和变音。（3）根据对说话人的依赖程度分类。特定人语音识别系统：仅对专人的语音进行识别；非特定人语音识别系统：识别的语音与人无关，通常需要用不同人的语音数据库对识别系统进行训练；研究语音识别的基本方法主要有声学语音学方法、模板匹配方法和人工神经网络方法三种。声学语音学方法声学语音学方法是最早提出的语音识别方法。语音学认为，语音是由有限个不同的语音单元组成的，并且语音单元可以用语音信号参数或谱特征来描述。用声学语音学方法进行语音识别，分“分割与标示”和“得到词序列”两个步骤实现。“分割与标示”是将语音信号按时间分割成离散的片段，每个片段对应一个或几个语音基元的声学特征，再根据声学特征对每个片段加上相应的标示。“得到词序列”是从语音片段的标示序列中找出有效的单词。模板匹配方法模板匹配方法是目前已经比较成熟的语音识别方法。模板匹配方法要经过特征提取、模板训练、模板分类、判决四个步骤。常用的技术有动态时间规整、隐马尔可夫模型和矢量量化（Vector Quantization，VQ）技术。人工神经网络方法人工神经网络方法是一种新的语音识别方法。人工神经网络方法模拟人类神经活动的原理，具有自适应性、并行性、鲁棒性、容错性和学习特性。语音识别系统的运行主要包括“训练”和“识别”两个阶段。训练阶段又称学习阶段，此阶段提取说话者的语音特征参数，形成被识别语音的标准模板库。在识别阶段，将待识别人的语音经过特征提取后，与系统训练中产生的模板进行比较，如果相似度大于一定的判决门限就成为被识别语音。 5.3.2 语音合成语音识别解决机器“听”的问题，语音合成解决机器“说”的问题。语音合成通过人工合成的方法生成语音，使机器能像人一样说话。目前，在语音识别领域，已经开展了广泛研究并且进入实用阶段的是文语转换技术（Text-To-Speech，简称TTS），就是将文字的输入自动转换为语音输出的技术。文语转换系统的基本结构由文本分析处理、韵律处理和声学处理三大模块组成。（1）文本分析处理模块。文语转换系统首先处理文字，让计算机认识文字，确定文字的读音，分析哪些是词，哪些是短语，哪些是句子，再由文本分析处理模块将文字序列转换成音节序列。传统的文本分析的实现方法是基于规则的，其要点是将文字中的分词规范和发音方式尽可能罗列，然后总结出规则，依靠规则进行文本处理。随着人工神经网络技术的发展，以及统计学方法在计算机领域的广泛应用，又出现了基于数据驱动技术的文本分析方法，其要点是设计一种可以训练的模型，然后用大量的数据去训练，将训练得到的模型用于文本分析。（2）韵律处理模块。韵律处理模块是决定合成语音质量好坏的关键。韵律处理模块对每个音节进行韵律调整，包括声调、轻重音、停顿的调整，使合成的语音听起来更加自然。韵律处理模块将音节序列转换成音韵序列。韵律生成方法也分为基于规则的方法和基于数据驱动的方法两种。（3）声学处理模块。声学处理模块是让计算机发声的模块。声学处理模块利用音韵序列中的参数，根据不同的语音合成方法，从语音库中选取相应的语音单元或参数，经过参数计算和拼接后形成语音波形，输出自然流畅的语音流。常用的语音合成方法主要有共振峰合成（formant synthesis）、线性预测编码合成（linear prediction coding，LPC）、基音同步叠加合成（pitch synchronous overlap and add，PSOLA）合成和LMA（log magnitude approximate）声道模型等。 5.4 MIDI 5.4.1 MIDI基本概念 MIDI是实现电子乐器之间、电子乐器与计算机之间通信的一种标准协议。1983年，国际乐器制造者协会制定了MIDI协议1.0，目的是解决电子乐器之间的兼容问题。MIDI协议定义了计算机音乐程序、音乐合成器及其他电子音乐设备交换音乐信号的方式，规定了不同厂家的电子乐器与计算机连接的电缆和硬件及设备间的数据传输协议。另外，早期的电子乐器在音色排列上没有统一标准，导致在一台电子乐器上制作的音乐拿到另一台不同厂家的电子乐器上播放时可能变得面目全非，例如钢琴变成了小提琴，长笛变成了吉他��为了解决这一问题，相继出现了GS、GM和XG等音色排列方式的标准，其中GM是国际标准，GS和XG是厂家标准，GS标准为Roland公司的产品所专用，而XG标准为YAMAHA公司的产品所专用。1990年，Roland公司制定了GS标准，该标准完整定义了128种乐器的统一排列方式，规定MIDI设备的最大同时发音数不能少于24个。1991年，GS标准经适当简化后推出了GM标准，成为了业界广泛接受的标准。1994年，YAMAHA公司提出了XG标准，XG标准在兼容GM标准的基础上，提供了强劲的扩展功能。2019年，全球MIDI制造商协会（MMA）和日本的音乐电子行业协会（AMEI）共同宣布，经过了多年的协调和研发，MIDI 2.0草案于2019年初问世。 2020年，MIDI 2.0规范正式发布，它具有双向交互、向下兼容的特点，同时会增强MIDI 1.0的功能集。表5-1是国际标准GM的128种音色分类表。 MIDI从20世纪80年代初问世以来，经历了不断的发展。现在人们提到的MIDI，已经远远超越了其最初的含义。 5.4.2 音乐合成方法音乐合成有两种方法：FM合成（frequency modulation synthesis，即调频合成）和波表合成（wavetable synthesis）。 1. FM合成 FM合成的原理来源于傅里叶级数：各种复杂的波都可以分解为若干个频率不同的正弦波。FM合成器利用若干个正弦波来合成各种乐器的声音，合成的音乐声音比较单调。 FM合成器由五个基本模块组成，如下所示。（1）数字载波器：用于数字载波，有3个参数：音调（pitch）、音量（volume）和波形（wave）。（2）调制器：用于波形调制，有6个参数：频率（frequency）、调制深度（depth）、波形类型（type）、反馈量（feedback）、颤音（vibrato）和音效（effect）。（3）包络发生器：包络用来控制音色的各个参数随时间而产生的变化。包络发生器用于调制声音的电平，有4个参数：起音（Attack）、衰减（Decay）、延音（Sustain）、释放（Release），简称ADSR，描绘了包络的各阶段。（4）数字运算器：用于参数的数字运算。（5）数模转换器：将数字信号转换成模拟信号。 2. 波表合成波表合成技术是目前大部分声卡采用的技术，因为波表合成产生的乐音真实自然。波表合成技术将真实乐器的声音经过数字化后作为波表文件保存起来，当计算机需要声卡播出某个乐器的声音时，由声卡上的波表合成芯片或PC机的CPU从波表文件中找出对应的声音信息并播放。由于波表合成采用的是真实乐器的采样，而且一般按照数字激光唱盘（CD-DA）的标准采样（采样频率为44.1kHz，量化位数为16位），因此产生的乐音质量比FM合成乐音的质量高。波表合成常分为硬波表和软波表两种方式。硬波表将波表文件存放在声卡上的ROM（只读存储器）或RAM（随机存储器）上，这样声卡上的波表合成芯片可以直接调用。硬波表性能好但成本高。软波表用软件代替声卡上的波表合成器，将波表文件存放在硬盘上，需要时调入内存，利用CPU的运算处理能力回放MIDI音色效果。它用软件“算出”需要的音色，播放MIDI时CPU占用率比较高。软波表具有灵活的软件设置和升级优势。 5.5 Windows录音机的使用 Windows操作系统自带的“录音机”程序是一个功能实用而且操作简单的声音文件编辑和处理软件。使用“录音机”程序可以录制、播放以及编辑处理声音。需要注意的是，使用“录音机”程序录音时，计算机要有麦克风，录下的声音被保存为波形（.wav）文件。（1）启动程序。单击Windows“开始”按钮，然后在应用中找到“录音机”，单击打开程序（如图5-1所示）。（2）打开后，界面非常纯洁，单击中间的“录音”图标开始录音。如果是初次录音，即不存在以前的录音文件，则界面如图5-2所示；如果已经存在录音文件，则界面如图5-4所示。（3）录音界面有时间显示，录音过程中可以随时暂停和添加标记。录制完成，单击“停止”按钮，停止录音，如图5-3所示。（4）录音完毕后直接跳到播放界面。单击右下角的“...”就可以对录音进行分享、删除、剪辑、打开文件所在位置等操作如图5-4所示。 5.6 常用的音频制作软件近几年，数字音频制作软件发展迅速，很多硬件的功能，如音序器、合成器、采样器、效果器、均衡器等，都可以由软件来实现。如今，各种类型的软件呈现出功能覆盖和叠加的态势。例如，一些 MIDI音序器软件也具备了音频编辑处理能力，而一些音频编辑软件也扩展了多轨录音的功能。软件越来越向多功能性集成，在归类时很难将其划分在某单一领域，只能按其侧重进行归类。对于数字音频制作，从制作的功能性角度进行归类，音频制作软件大致可分为专用软件、音频处理类、MIDI音序类、音源类等几种类型。 5.6.1 专用软件专用软件一般需要与配套的硬件板卡共同工作才能发挥作用，因此往往在一些专业级工作站中出现。它们的功能强大，有独立开发的DSP处理系统，与硬件板卡的结合更加彻底、全面，性能也更加优秀。Pro Tools是目前最专业的音频制作工具，是录音行业的业界标准。根据不同的市场定位与价位划分，它又派生出了Pro Tools|HD、Pro Tools|24MIX、Digi 001、Digi 002、Mbox等硬件配置等级不同、软件功能略有差异的数个系统。Pro Tools级别最高，投入最多，其品质自然也是最好的。 Pro Tools将软硬件完美结合，提供了一种简明的方式，使一个项目从策划到完成可以很容易地实现。音频/MIDI的录制、编辑、混合，只通过两个主要的窗口即可完成。Pro Tools的软件界面就是一个可以由用户自定义的调音台。制作人员可以使用标准的模板，或创建自己的调音台结构。作为以计算机为基础的数字音频工作站，它重新定义了音乐的制作手段和方式，并完全取代了传统音频的磁带多轨录制和混合调音台，包含了所有专业声音处理所需要的功能，诸如IMIDI、录音、剪接编辑、效果处理、混音、声音格式转换、无损编辑等专业录音工作。除此之外，Pro Tools更拥有多家厂商协同开发的近百套嵌入式特效处理软件，不但满足了各种专业工作对声音的需求，更为音乐工作者的创作提供了无限的弹性空间，是专业音乐、电影电视音频后期制作的主力工具，音乐、广播、电影、电视中数字音频制作的标准，并在多数格莱美获奖音乐和奥斯卡获奖电影的数字音频制作中占据了重要的位置。 5.6.2 音频处理类软件音频处理类软件的主要功能包括录音、压缩、混音、编辑、后期效果及母带处理等。目前的音频软件大都集成了这些功能，由于使用者需求与条件的差异，用户对软件的选择及使用也呈现不同的差别。 1. Adobe Audition Adobe Audition是一个专业音频编辑和混合环境，其前身为Cool Edit。2003年，Adobe公司收购了Syntrillium公司的全部产品，著名的音频编辑软件Cool Edit Pro也随之改名为Adobe Audition vl.0。Adobe Audition功能强大，控制灵活，可以完成录制、混音、编辑和效果处理，也可轻松创建音乐，制作广播短片，修复录制缺陷。Adobe Audition专门为音频和视频专业人员设计，通过与Adobe视频应用程序的智能集成，还可将音频和视频内容结合在一起。Adobe Audition操作简便，界面简洁，易学易掌握，而且容量小，能够满足对音频的各种编辑需求。它也是非专业人士当中普及较广、人气最佳的一款软件。 2. Samplitude 2496 Samplitude 2496一般简称为SAM 2496，是由德国MAGIX公司出品的DAW软件，分为Samplitude Classic和Samplitude Professional两个版本。在7.0版本之前，Samplitude一直是一款侧重于音频多轨编辑与缩混的软件，但从7.0版本开始，Samplitude开始支持ASIO驱动VST插件、VST乐器以及分轨MIDI功能等。Samplitude 7.0已经成为音频、MIDI两手都抓，两手都硬的全能选手。Samplitude 2496支持各种格式的音频文件，能够任意切割、剪辑音频，自带频率均衡、动态效果器、混响效果器、降噪、变调等多种音频效果器，在中高端用户中备受好评。 3. Sound Forge Sound Forge是Sonic Foundry公司开发的一款单轨录音软件，其90版本曾获得国际大奖。单轨录音，顾名思义，就是只能进行一个声部（音轨）的录制。要想进行多声部录制，只能分别多次进行。多轨录音则可以同时对几个声部进行录制，并能对音乐和人声进行合成处理。单轨录音虽然会给多声部录制带来很多不便，但在编辑、修改单独一个音频文件时却显得十分简单，其编辑功能也普遍比多轨录音软件强大许多。因此，它们之间是相辅相成、互相弥补的，应该在录音的不同阶段使用不同的录音方法。 Sound Forge不需要非常好的硬件系统，它的可操作性在同类软件中是出类拔萃的。它的主要用途是录音，录音界面非常专业，可以满足多种录音要求。在计算机音频工作站中，Sound Forge的作用就是录制音频信号，存为WAVE文件，等待其他多轨音频软件的编辑与混音。 5.6.3 MIDI音序类软件音序软件的主要功能是将演奏者实时演奏的音符、节奏信息以及各种控制信息（如速度、触键力度、颤音以及音色变化等）以数字方式在计算机中记录下来，然后对记录下来的信息进行修改编辑，并发送给音源，音源即可自动演奏播放。这就是通常所讲的MIDI文件。如今，单纯具有MIDI功能的音序软件已经非常少见了，大多都集成了音频编辑功能。 1. Sonar（Cakewalk）计算机音乐圈里，美国的Cakewalk可谓大名鼎鼎，是最早的MIDI制作音序器软件。通过不断完善，Cakewalk如今已升级为Sonar，在原有的基础上，增加了针对软件合成器的全面支持，并且增强了音频功能，使之成为将MIDI、音频、音源（合成器）一体化的新一代全能型超级音乐工作站。 Sonar有两种型号，具备完全功能的叫Sonar XL，具备简化功能的为Sonar。Sonar自身附带了几个比较优秀的DXi软音源插件，能够允许第三方制作的软件合成器作为一个插件在Sonar里面使用。通过收购，Sonar把Ultrafunk效果器包、VST-DX Adapter等著名软件纳入自己的安装程序，此外，还带有MusicLab公司的几个MIDI插件，MIDI处理能力史无前例的强大；而它的操作和使用却非常方便，容易上手，因此受到专业音乐制作人和业余音乐爱好者的广泛喜爱。 2. Cubase/Nuendo Cubase/Nuendo均出自德国Steinberg公司，Cubase面向个人工作室。两者的界面稍有不同，操作上完全一样。目前，Nuendo已经成为使用最广泛的专业音乐制作软件，它是一款集MIDI制作、录音混音、视频等诸多功能于一身的高档工作站软件，但对专业性要求较高。Cubase的音源和音频功能非常强大，许多公司对它开放了很多VST音频效果器和音源插件，VST插件具有非常良好的实时性、监听真实性和稳定性，这是它对比Sonar具有的优势，而且，它的录音、音频处理和多轨缩混功能都非常出色。绝大多数VST插件效果器和音源均可以转换为DXi，在Sonar里面使用。Cubase的资源占用比Sonar要高，而且需要声卡支持ASIO专业标准才能较好地使用。 3. Logic Studio Logic Studio是由苹果公司推出的一套音乐制作软件套装，采用全新的音频设计思路，将Macintosh计算机变成业界最高声音质量标准的数字音频工作站，包含了众多合成器、效果器以及节奏与乐段编曲工具，并针对PowerPC G5处理器和macOS做过优化。Logic Studio可以利用联网的计算机提供强大的数字信号处理运算能力。针对目前流行的Loop制作方式，Logic内置了Apple Loops，它具备浏览和编辑功能，可以实时伸缩节奏乐段的时值长短，并修改节奏乐段的音调。由于该软件对硬件性能要求较高，因此目前用户数量相对较少，但其增长速度相当快。以上3款音序软件其实都已变成了多功能的音频工作站。需要说明的是，具有音序功能的软件也是非常多的，包括一些自动伴奏软件，如Band in A Box、JammerLive、TT作曲家等；以及众多的舞曲制作软件，如Reason、FL Studio、ACID等。 5.6.4 音源类软件音源类软件是目前发展速度最快、产品最多的一类软件。若以软件运行状态划分，音源类软件可分为以插件方式运行和独立运行两类。例如，Reality和GigaStudio是独立运行的软音源、软采样器，它们有一个致命的缺点，就是不能通过算法直接与音频轨缩混在一起，只能用内录的方式通过声卡将其转换为音频。插件，就是“插入”到主工作站软件内使用的软件。它本身不能独立运行，要依靠主软件来运行。插件使用起来非常方便，可以直接通过算法和音频轨进行缩混，没有任何音质的损耗。若以音色来源划分，音源类软件可分为采样类和软波表类。采样类软件将真实乐器的各种音色及技法原封不动地记录下来，供客户恰当应用。例如，大名鼎鼎的Vienna Symphonic和EastWest是典型的采样类软音源。波表类的音色则是“计算”出来的或模仿、创新的音色，如Steinberg Hypersonic，Yamaha XG100等都属于软波表音源。采样类的优势在于其接近真实乐器的音色，而波表类则更侧重无穷变化的电子音色。若以插件格式划分，则音源类软件有DXi、VSTi、AudioUnits、TDM、HTDM、RTAS等多种格式。DXi、VSTi是使用最多的插件格式。DXi是由Cakewalk公司开发的，这类插件的数量并不多，而且只能运行在Cakewalk Sonar系列软件上，局限性较大，因此，它并不很受欢迎。VSTi基于Steinberg的“虚拟乐器插件”技术，拥有海量的软件音源，是目前应用最广、种类最多的格式。Audio Units是macOS X平台的音源插件格式。还有其他的必须有相应硬件配合才可以使用的专业插件格式，如Pro Tools的TDM、HTDM、RTAS格式，Creamware的Creamware格式，VarioOS的VarioOS格式等。按虚拟乐器的乐器特点划分，音源类软件可分为电子、管弦、打击、民乐、键盘等组别，也可分为综合类和单一型两类。如，East West QL COLOSSUS、Hypersonic，由于一个插件包含了众多音色，因此属于综合类；RealGuitar、PlugSound Keyboard等只有一种乐器的音色，则属于单一型，分别是吉他音源和钢琴音源。 5.6.5 音频格式转换软件 1. Ease Audio Converter Ease Audio Converter适用于音频文件的压缩与解压缩。它可以将任何压缩格式转换成WAVE格式，或者将WAVE格式的文件转换成任何一种压缩格式。 2. Super Video to Audio Converter Super Video to Audio Converter是一款从视频中提取音频的工具。它支持从AVI、MPEG、VOB、WMV/ASF、RM/RMVB、MOV格式的视频文件中提取出音频，保存成MP3、WAV、WMA或OGG格式的音频文件。随着各种新技术的不断涌现，软件的功能越来越完善。虽然生产厂商不同，界面不同，但一些功能具有相似性。用户可以根据操作习惯和层次要求选择适合自己的软件。 5.7 Adobe Audition的使用 Audition有单轨迹编辑环境、多轨迹编辑环境、CD模式编辑环境三种工作环境。单轨迹编辑环境比较适合处理单个的音频文件；多轨迹编辑环境可以对多个音频文件进行编辑；CD模式编辑环境可以整合音频文件并转化为CD音频。本书以Audition 2021为例，介绍它的操作界面。图5-5是Audition 2021的工作界面，最上面是菜单栏，包括文件、编辑、多轨、剪辑、效果等；最左边为素材选择区，可以在这里找到自己需要的音频素材；素材选择区右边为工作区和显示区，其中工作区用来对音频进行一系列操作，例如降噪、删除等；显示区可以显示音频的声音大小以及音频的起止、持续时间等。Audition的窗口布局较为自由，可以任意调整大小、位置。 5.7.1 新建文件 1. 新建空白音频文件新建音频文件有助于确定音频波形文件的属性，如音频的采样率、单声道/立体声/5.1环绕声，用户可以根据需要进行相应的设置。空白音频文件可以用于录制新的音频或粘贴音频。（1）在波形编辑模式下，执行“文件”→“新建”→“音频文件”命令（或直接单击“波形”快捷键），打开“新建音频文件”对话框，如图5-6所示。（2）在“新建音频文件”对话框的文本框中输入一个文件名，然后设置如下选项。 . 采样率：决定文件的频率范围。采样率至少是原始信号最高频率的两倍。 . 声道：决定波形是单声道、立体声还是5.1声道。单声道只具有一条声道的波形信息，一般用于录制声音信息；双声道具有左右两个通道的波形信息，更适合用于录制音乐；5.1声道包括5个主声道（中心（C）、左前（L）、右前（R）、左后（Ls）和右后（Rs）声道）和一个低音效果声道，可以模拟真实的音响效果。 . 位深度：决定文件的振幅范围。位深度的级别分为8位、16位、32位，其中，32位级别在Audition中处理起来灵活性较好，但是与普通应用程序的兼容性较差，编辑完成后，须转换为较低的位深度。（3）设置完毕，单击“确定”按钮，空白的音频文件便出现在“文件”面板中，并在“编辑器”面板中显示空白波形。 2. 新建多轨项目文件在多轨混音模式中编辑完毕进行保存时，会将源文件的信息和混合设置保存到项目文件（*.sesx）中。项目文件相对较小，本身不包含音频数据，仅包含了源文件的路径和相关的混合参数，如音量、声像、素材的插入位置、施加的包络编辑与效果设置等。（1）执行“文件”→“新建”→“多轨会话”命令（或直接单击“多轨”快捷键），打开“新建多轨会话”对话框，如图5-7所示。（2）在“会话名称”对话框文本框中输入一个文件名。设置文件存放位置，或单击“浏览”按钮，在弹出的对话框中选择存放位置，然后设置如下选项。 . 采样率：决定文件的频率范围。 . 位深度：决定文件的振幅范围。 . 混合：决定轨道被混缩到单声道、立体声还是5.1声道。 5.7.2 打开已有的音频文件或多轨项目通过“打开”命令将硬盘中现有的音频或项目文件打开。在波形编辑器中，不仅可以打开MP3、WAV、AIFF等格式的音频文件波形，还可打开视频格式文件中的音频部分，其中包括AVI、DV、MPEG-1、MPEG-4、MOV或WMV等格式。而在多轨编辑器中可以打开的文件类型有：Audition Session、Adobe Premiere ProSequence XML、Final Cut Pro XML、Interchange和OMF。（1）执行“文件”→“打开”命令，弹出“打开文件”对话框，选择要打开的文件。（2）选择完毕，单击“打开”按钮，打开的文件将出现在“文件”面板中。双击“文件”面板的空白区域，可以快速访问“打开”对话框，方便操作。 5.7.3 用“文件”面板导入文件 “文件”面板是显示打开的音频文件与视频文件的面板，Adobe Audition支持多种类型的音频与视频文件的导入。在Adobe Audition波形编辑器中可以打开的音频文件格式有AAC、AIFF、AU、AVR、BWF、CAF、FLAC、TK、IFF、M4A、MAT、MPC、MP3、OGA、PCM、PVF、RAW、SDS、WAV、WVE、XI等。波形编辑器可以打开AVI、DV、MOV、MPEG-1、MPEG-4、3GPP与3GPP2等格式的视频文件中的音频部分，多轨编辑器可以插入相同文件类型并提供视频面板预览。 1. 将文件导入“文件”面板中导入文件是获取音频素材的最快捷的方法。使用“文件”面板可以将素材导入其中。（1）在“文件”面板中，单击“导入文件”按钮，或执行“文件”→“导入”→“文件”命令。（2）打开“导入文件”对话框，在其中选择要导入的文件。单击“打开”按钮，打开的文件将出现在“文件”面板中。 2. 在“文件”面板中使用文件将文件导入“文件”面板中后，可以通过内置的按钮对文件进行分配，主要用于将其插入到多轨项目的编辑中。（1）在“文件”面板中，选中要插入的文件。（2）在“文件”面板的顶部可进行如下操作：单击“插入到多轨混音中”按钮，然后选择“新建多轨混音”选项，或者打开一个已打开的项目，即可将文件插入当前时间指针的位置。 5.7.4 保存音频文件在Adobe Audition中，可以保存录制与编辑的音频文件。在波形编辑器中，可以用多种常用格式保存音频文件。格式的选取取决于想要如何应用音频文件。值得注意的是，如果以不同的格式保存文件，每种格式独特的信息可能会丢失。在波形编辑器中完成音频的录制与编辑之后，可以使用如下方式进行保存。（1）执行“文件”→“保存”命令，保存当前音频文件的改动。（2）执行“文件”→“另存为”命令或“文件”→“导出”→“文件”命令，将当前音频文件重命名保存到另一个位置。（3）执行“文件”→“将选区保存为”命令，将当前音频文件的选择区域保存为一个新文件。（4）执行“文件”→“全部保存”命令，将当前打开的所有音频文件保存。 . 在弹出的相应对话框中，选择保存位置，输入文件名。 . 根据所选格式的不同，设置下列选项。采样类型：表明采样率与位深度。单击“更改”按钮，可以调整这些选项。格式设置：表明数据压缩与存储模式。单击“更改”按钮，可以调整这些选项。包含标记与其他元数据：选中此复选框，可以将音频标记与元数据面板中的信息保存在文件中。 . 设置完毕，单击“确定”按钮，就可以保存了。 5.7.5 关闭文件在波形编辑器中完成音频的录制与编辑保存之后，可以通过选择“文件”→“关闭”命令，关闭当前音频文件。如果要关闭所有文件，可以在Adobe Audition主窗口左上角的菜单栏中选择“文件”→“全部关闭”命令。如果在试听过程中无意间进行了某些操作，在关闭时，可能会弹出一个对话框，询问是否保存对当前工作的更改，此时单击“否”按钮即可。 5.8 使用Adobe Audition CC录音 5.8.1 录音前的准备在录制工作开始前要做好以下准备：保证所有硬件设备正常工作，包括耳机、麦克风、监听音箱、电源等，并保证连线准确无误；保证计算机操作系统正常工作，录音软件运行无误，并安装好所有可能用到的插件和工具；确保计算机有足够的硬盘空间，并为录音创建一个专门的工作目录；选一个隔音相对良好的房间录音，关闭门窗和可能带来噪声的电器设备，避免环境音经过话筒进入录音文件（虽然在后期处理时能够去噪，但是并不能完全去除噪声，而且会使声音失真；特别是分贝很高的刺耳声，只要录入就再不能消除和弱化）；熟悉录音内容，如作品的风格和要求，力求达到录音的最佳状态；调整心理状态，提高自信，语气平和。做好以上准备，就可以开始录制了。进行人声录制时，要注意调整电平，只有做好这一步，录出的声音质量才能更好。由于人声的电平高低是动态变化的，因此可以使用压缩器。压缩器是一种自动控制信号电平的工具，当信号超过设定的阈值时，压缩器自动拉下电平，拉下多少取决于压缩比。在Adobe Audition CC中，也可以进行录音电平的调整。调整录音电平时，首先要使麦克风处于工作状态，并且使麦克风远离音箱或将音箱的音量调到最小，这样可以防止“反馈”的发生。这里的反馈是指声音被麦克风拾取，又从音箱播放出来，再被麦克风拾取的无限循环过程。反馈会使音箱发出尖锐或低沉的声音，这种声音很难听，严重时还会造成线路和设备的损坏。如果录音电平太大，则会使音质变得很差；如果录音电平太小，也会影响音质。调整录音电平的目的就是让录制的声音不发生削波，同时声音强度也要尽量大，也就是让录制的声音“最大不失真”。调整录音电平离不开“试音”。按照正式录音的状态发出声音，根据“电平表”选项卡的显示数及其变化，在“录音控制”对话框内进行相应的调整。一般来说，在录音时，要尽量将声音以最高电平经话筒录制到计算机中，声音的电平越高，清晰度也就越高。不过，声卡对声音电平的最高限度有要求，也就是说，如果声音电平过高，会出现爆音的现象，影响录音效果。但是，如果录制的声音电平太低就会影响其清晰度。因此，首先要对着麦克风录制较高音量部分，如果显示电平过小（小到几乎看不到绿色的电平条），则需要提高录音电平；如果显示电平过大（电平条显示到红色），就需要降低录音电平，以达到较为理想的电平。在Adobe Audition的波形编辑模式下，按Alt+I快捷键或执行“视图”→“测量”→“信号输入表”命令，即可在主界面的下方显示录音电平。如果看不到彩色条，可能是由于电平表的量程太小，此时，可以在“电平”面板上右击，在弹出的快捷菜单中选择更大的量程，其最大值为120dB。如果选择了最大量程，还是没有光柱出现，就说明声卡没有收到来自麦克风的任何信号，需要检查计算机硬件是否出现了问题。试音过程中，麦克风和人之间应保持合适的距离，一般为5～15cm。如果距离太远，拾取的有用信号会比较弱。通过不断调节，接近理想的工作状态后，就可以进入实际录音阶段。 5.8.2 单轨录音 1. 录制麦克风声音下面以录制麦克风声音为例，介绍录制诗朗诵的步骤（如果用笔记本电脑自带的麦克风，可以直接跳到第（4）步）。（1）将麦克风与计算机声卡的Microphone接口相连接，将录音来源设置为Microphone。（2）打开Adobe Audition软件，显示波形编辑视图界面，执行“编辑”→“首选项”→“音频硬件”命令，打开“首选项”对话框，设置“默认输入”和“默认输出”选项。（3）双击任务栏上的小喇叭图标，打开“音量控制”对话框，在麦克风选项下方，单击“选择”复选框。（4）执行“文件”→“新建”→“音频文件”命令（或直接单击“波形”快捷键），打开“新建音频文件”对话框，为文件设置一个文件名“诗朗诵”。【提示】也可打开已有的文件重写或添加新的音频，将当前时间指针放到想要开始录制的位置。（5）单击“编辑器”面板底部控制器中的“录制”按钮，开始录制。（6）对准麦克风，录制声音。（7）观察录制声音的波形。单击“录制”按钮或“停止”按钮，即可结束录制。录制过程中可以单击“暂停”按钮暂停或继续录制，如图5-8所示。【提示】在录制过程中，随时观察下面的录音电平，可以更好地帮助分析当前输入设备录制声音音量的大小。（8）执行“文件”→“保存”命令，将文件保存。 2. 录制系统声音系统中的声音是指当前播放歌曲的声音、电影中的声音、CD中的声音等。这样，录制的声音没有噪音的干扰，品质比较高。在生活中，常用这种方法录制电影中的插曲或对白。（1）双击任务栏上的小喇叭图标，打开“音量控制”对话框。在Stereo Mix左边，单击“选择”复选框，同时禁用麦克风设备。（2）执行“编辑”→“首选项”→“音频硬件”命令，打开“首选项”对话框，设置“默认输入”为立体声混音。（3）使用播放器播放电影，单击“录制”按钮。（4）录制完成后，单击“录制”按钮或“停止”按钮，结束录制。 5.8.3 多轨录音在多轨编辑器中，可以同时在多个轨道中录制音频，以进行配音。多轨录音时，可以听到其他轨道上的配乐和之前录制的声音；如果项目中含有视频，还可以同时监视播放的视频。这样，通过混音编排就能得到一部完整的作品。还可以先将录制好的一部分音频保存在一些音轨中，再进行其他部分或剩余部分的录制。默认状态下，Adobe Audition为用户提供了6个音轨和一个混音音轨。（1）执行“文件”→“新建”→“音频文件多轨会话”命令，设置会话名称为“多轨录音”，单击“确定”按钮，进入多轨编辑状态。（2）执行“编辑”→“首选项”→“音频硬件”命令，设置“默认输入”选项为“麦克风”。（3）执行“多轨混音”→“轨道”→“添加立体声轨道”命令，添加一个立体音轨“轨道7”。（4）在“轨道7”面板中选择输入设备为“默认立体声输入”，如图5-9所示。（5）单击“轨道7”面板中的“录制准备”按钮（R），将该按钮激活，准备录制，单击“录制”按钮进行录制工作。（6）要在多个轨道上同时录音，重复步骤（1）～步骤（5）。（7）在“编辑器”面板中，定位当前时间指针在希望开始录制的位置，或选取新素材的范围。（8）单击“录制”按钮，开始录音。（9）录音完毕后，单击“录制”按钮或“停止”按钮，结束录制。 5.8.4 穿插录音穿插录音可以在已有的波形文件中插入一个新的录制片段。如果对已经录制完成的声音中的局部不满意，可以将这部分选中，然后进行录音，这就是所谓的穿插录音。在穿插录音的过程中，软件仅对选定的区域进行录音，区域以外的部分不受影响。（1）启动Adobe Audition，单击“多轨”按钮，设置项目名称为“穿插混音”。单击“确定”按钮，进入多轨混音编辑状态。（2）执行“文件”→“导入”→“文件”命令，将声音文件导入。（3）选中“轨道1”，单击“插入到多轨混音中”按钮，将音频插入轨道1中。（4）单击编辑器下面的“放大（时间）”按钮，将波形放大。使用时间选区工具选择音频中录制错误且需要更改的波形，如图5-10所示。（5）设置轨道1上的输入设备为“麦克风”选项。（6）单击轨道1上的“录制”按钮，开始录制。（7）选择区域将呈现出与其他区域不同的颜色，并产生一个带序列号的音频文件。（8）对选择的区域录制结束后，会自动停止录音。执行“文件”→“保存”命令，保存项目文件和录制的音频。（9）执行“文件”→“导出”→“多轨混音”→“整个会话”命令，将文件导出为音频文件。 5.8.5 录制第一段声音使用Adobe Audition的录制功能可以边播放音乐边录音。在多轨录音方式中，播放和录制可以同时进行。接下来我们将通过所学习的技术，录制自己的第一段声音。基本思路就是先将背景音乐导入一个音轨中，然后增加一个音轨，用于录音。具体操作步骤如下。（1）单击“多轨混音”按钮，设置混音项目名称为“录制第一段声音”，单击“确定”按钮，进入多轨编辑状态。（2）执行“文件”→“导入”→“文件”命令，将“老狼-同桌的你.ape”文件导入。（3）选择文件，单击“插入到多轨混音中”按钮，将音频插入到项目“录制第一段声音”的轨道1中，如图5-11所示。（4）单击轨道2上的“录制”按钮。（5）单击“录制”按钮开始录制，并观察下面的电平，根据电平的显示调整声音大小。（6）录制完成后，单击“停止”按钮，结束录音，如图5-12所示。（7）选择轨道2上的波形，执行“效果”→“混响”→“完全混响”命令，在弹出的对话框中选择“小型俱乐部”预设。按空格键试听效果，并根据效果调整混响参数，如图5-13所示。（8）执行“文件”→“存储”命令，将项目文件保存。选择“文件”→“导出”→“多轨混音”→“整个会话”，将文件名设置为“录制第一段声音缩混”，如图5-14所示。 5.9 音频编辑 5.9.1 波形编辑概述在导入或录制了音频素材之后，可以在波形编辑视图下对素材进行单独编辑，以满足后续工作的需求。在波形编辑视图中打开音频后，可以看到可视化的音频波形。如果打开的是立体声文件，则其左声道波形出现在上方，右声道波形出现在下方。如果打开的是单声道文件，则其波形充满整个“编辑器”面板。在波形编辑器中，“编辑器”面板为音频提供了可视化的显示方式。默认状态下为波形显示，可以根据需要选择频谱显示方式，查看音频的频率（从低到高）。要查看频谱显示，可以执行菜单命令“视图”→“显示频谱”或单击工具栏上的“显示频谱”按钮。（1）波形显示：以一系列正值和负值形式显示波形。X轴代表时间（水平标尺），Y轴代表振幅（垂直标尺），即音频信号的强弱。弱的音频信号比强的音频信号的峰和谷都要小，如图5-15所示。（2）频谱显示：使用自身的频率显示波形。X轴代表时间（水平标尺），Y轴代表频率（垂直标尺）。这种频谱图可以辅助分析各个频率的分布。较亮的颜色表示较高的频率，如图5-16所示。频谱显示适用于清除不需要的声音，如咳嗽等噪声。 5.9.2 选择音频无论对音频进行什么操作，第一步都是选取要进行编辑的音频。即使要对音频添加各种效果，也必须先选择再进行处理。 1. 选择时间范围从时间范围看，可以选择一整段音频。在工具栏中选择时间选择工具，在“编辑器”面板中进行如下操作。（1）单击并拖动鼠标，可以选择一个区域，被选择的区域会高亮显示，如图5-17所示。（2）要扩展或缩减选择区域，应按住Shift键，单击要设置新边界的位置。还可以通过拖动更改选区。 2. 选择频谱范围在频谱显示下，可以使用框选工具、套索工具或笔刷工具选择特定频率范围的音频数据。框选工具可以选择一个矩形区域；套索工具可以自由绘制选区，进行选择；笔刷工具可以自由绘制选区，在工具栏中设置笔刷的尺寸和不透明度，可以影响绘制选区范围和强度，白色选区的不透明度越高，所施加效果的强度越高。三者均可以提供较为复杂的基础编辑能力。（1）在频谱显示下，在工具栏中选择相应的工具。（2）在“编辑器”面板中进行拖动，选中所需要的音频数据。（3）要调整选择部分，可进行如下操作。 . 移动选择部分：将光标放在选区上，进行拖动，将其放置到所需的位置上。 . 调整选择部分：将光标放在选区的边角处，进行拖动，调节选区到合适的尺寸。 . 要扩大套索或笔刷选择部分，按住Shift键并拖动光标；要缩小选择部分，按住Alt键并拖动光标。要调整笔刷选择部分应用效果的强度，调整工具栏中的不透明度设置。 3. 选择并自动修复噪声使用污点修复工具可以快速修复细小的独立噪声，如咔嗒声或嘭嘭声。当使用这个工具选择音频时，会自动执行“收藏夹”→“自动修复”命令。（1）频谱显示下，在工具栏中，选择污点修复工具。（2）调整笔刷尺寸大小设置，以改变像素直径。（3）在“编辑器”面板中，单击并按住鼠标或拖动鼠标划过噪声部分，可以消除噪声。【注意】自动修复噪声只能优化小的音频，因此限制选择部分为4s或更少。如果想要优化更多的音频，就需要使用降噪效果器。 4. 选择所有波形除了使用时间选择工具选择所有音频波形外，还可以通过命令快速选择所有音频波形。（1）在音频波形上双击，可以选择波形的可视区域。（2）执行菜单命令“编辑”→“选择”→“全选”（快捷键Ctrl+A）或在音频波形上进行三连击，可以选择所有波形。 5. 选择声道默认状态下，选择与编辑操作会同时施加到立体声或环绕声的所有声道上，也可以选择编辑其中的一个声道。在编辑器的右边，单击振幅标尺内的“声道”按钮，如单击立体声的右声道按钮，则关闭右声道编辑，只选择了左声道音频波形并以高亮部分显示，如图5-18所示。 6. 调整选择部分到零交叉点什么是零交叉点？放大一段波形，直到其成为一条单独的曲线，最高点和最低点之间的波形与X轴的交点就是“零交叉点”。一些编辑工作（如在波形之间删除或插入音频）要求选区设置得准确，这时最好将选区的起点与终点设置在零交叉位置，就可以减少编辑过程中产生的咔嗒声或爆裂声。要使选区最接近零交叉点，应执行菜单命令“编辑”→“过零”，在其子菜单中选择如下命令。（1）向内调整选区：向内调节选区的边界到相邻的零点上。（2）向外调整选区：向外调节选区的边界到相邻的零点上。（3）将左端向左调整：将选区的左边界向左调节到相邻的零点上。（4）将左端向右调整：将选区的左边界向右调节到相邻的零点上。（5）将右端向左调整：将选区的右边界向左调节到相邻的零点上。（6）将右端向左调整：将选区的右边界向右调节到相邻的零点上。 5.9.3 编辑音频编辑音频的基本操作包括音频数据的复制、剪切、粘贴与删除等。 1. 复制与剪切音频波形在波形编辑视图下，选择要进行复制或剪切的音频数据。如果要复制或剪切整个文件的波形，则无须进行选择。（1）执行“编辑”→“复制”命令或按快捷键Ctrl+C，复制音频数据到当前的剪贴板中。（2）执行“编辑”→“复制为新文件”命令，复制并粘贴音频数据到一个新建文件中。（3）执行“编辑”→“剪切”命令，即在当前波形中删除所选音频数据并将其复制到剪贴板。 2. 粘贴波形粘贴命令可以把剪贴板中的音频数据放在当前的波形之中。（1）将当前时间指针放在想要插入音频的位置或选择一段欲进行替换的音频部分，然后执行“编辑”→“粘贴”命令或按下快捷键Ctrl+V，便可以将剪贴板中的音频数据粘贴到当前时间指针位置或当前所选音频区域中。（2）执行“编辑”→“粘贴到新文件”命令，可以将剪贴板中的数据粘贴到一个新文件中，并保持原有素材的属性。 3. 混合式粘贴混合式粘贴可以将剪贴板中的音频数据与当前波形相对应的部分进行混合。（1）先复制或剪切一段音频素材。（2）在“编辑器”面板中，将当前时间指针位置设置到要进行混合式粘贴的位置，或选择一段欲进行替换的音频部分。（3）执行“编辑”→“混合式粘贴”命令，打开“混合式粘贴”对话框，如图5-19所示。（4）在“混合式粘贴”对话框中设置音量和混合方式。设置完毕，单击“确定”按钮，则按照设置进行混合式粘贴。 . 复制的音频与现有的音频：调节复制音频与现有音频的百分比音量。 . 反转已复制的音频：反转复制的音频相位。如果现有的音频包含类似的内容，则会增大或减小相位的抵消。 . 调制：调制复制的音频与现有的音频总量，产生更可听的变化。 . 交叉淡化：在音频的起点与终点位置施加淡入淡出效果，输入数字，设置音频淡化多少毫秒。 4. 删除或裁剪音频 Adobe Audition提供了两种方法删除音频：“删除”命令，可以将选中的音频部分删除；“裁剪”命令，可以将选区之外的部分删除，保留选择的波形区域。选中要删除的部分，然后执行“编辑”→“删除”命令，可以删除所选波形，其余部分音频自动首尾相连。选中要保留的部分，然后执行“编辑”→“裁剪”命令，可以删除选区之外的部分波形。 5. 使用标记标记就是一个记号，不是音频数据。它是在音频波形中定义的特殊位置。使用标记可以对创建选区、编辑和播放音频起到辅助作用。标记可以分为位置型标记和范围型标记。位置型标记是波形中特定的时间位置，如图5-20所示。范围型标记是为某个波形范围做的记号，它包括两处记号，即范围的开始和结束，如图5-21所示。设置好标记后，可以在“编辑器”面板顶部的时间线中，选择并拖动有白色手柄的标记，或右击标记，以访问附加的命令。使用“标记”面板可以定义与选择标记。执行菜单命令“窗口”→“标记”，可以打开“标记”面板，在其中可以对标记进行重命名或添加注释等管理工作，如图5-22所示。 1）添加标记 . 打开音频。 . 将当前时间指针放在想要添加标记的位置。 . 选择想要定义一个范围标记的音频数据。 . 按住M键，或在“标记”面板中单击“添加标记”按钮。 2）选择标记 . 在“编辑器”面板中，双击标记的手柄。 . 在“标记”面板中，双击标记。 . 在“标记”面板的标记列表中，先选择第一个标记，再在按住Shift键的同时单击最后一个标记，可以将两者之间所有的标记全部选中。 . 在“标记”面板的标记列表中，按住Ctrl键，选择标记，可以将所需的标记逐一全部选中。 3）重命名标记 . 在“标记”面板中，选择标记。 . 单击标记名称，输入一个新的名称。 4）重新定位标记 “标记”设置好之后，可以对其进行各种操作。 . 在波形“编辑器”面板中，拖动标记手柄到新的位置。 . 在“标记”面板中选择标记，并输入位置型标记的开始数值或范围型标记的开始、结束与持续时间数值。 5）合并标记在“标记”面板中，选择合并的标记，然后单击“合并”按钮。新合并的标记将继承第一个标记的名称。合并后的位置型标记为范围型标记。 6）转换位置型标记为范围型标记右击标记手柄，然后在弹出的快捷菜单中选择“转换为范围”命令，标记手柄将分成两个手柄。 7）转换范围型标记为位置型标记右击标记手柄，然后在弹出的快捷菜单中选择“转换为节点”命令，范围标记手柄的两个部分将合并为单个的手柄，范围的开始时间变为标记的时间。 8）删除标记 . 在“标记”面板中，选择一个或多个标记，然后单击“删除”按钮。 . 在“编辑器”面板中，右击标记手柄，然后在弹出的快捷菜单中选择“删除标记”命令。 9）保存标记之间的音频到新文件在“编辑器”面板中，执行 “窗口”→“标记” 命令，打开“标记”面板。选择一个或多个标记范围。在“标记”面板中单击“导出音频”按钮，在弹出的快捷菜单中设置下列选项。 . 文件名：在文件名内使用标记名称。 . 前缀：指定新文件名的前缀。 . 后缀开始：起始编号，指定用于增加到文件名前缀后的开始编号。 . 位置：指定新文件的保存位置。 . 格式：指定文件格式。 . 采样类型：设置新文件的采样率与位深度。 . 包含标记与其他元数据：包括音频标记与元数据面板处理文件的信息。 5.9.4 实例分析 1. 截取音频生活中，如果喜欢某一首歌曲的某一部分，或者喜欢某部电影的经典对白，使用Adobe Audition就可以轻松地在一大段音频中选择自己喜欢的部分，并将这段音频制作成一个单独的音频文件，应用在不同的作品中。（1）执行“文件”→“打开”命令，打开文件“水中花.wav”，如图5-23所示。（2）播放音频，选择自己喜欢的音频部分，如图5-24所示。（3）右击鼠标，在弹出的快捷菜单中选择“复制到新建”命令。（4）选择的音频部分被复制到一个新文件中。此时“文件”面板中有两个文件，其中“未命名2”为复制的新文件，如图5-25所示。（5）执行“文件”→“保存”命令，将文件保存为“水中花1.wav”，如图5-26所示。 2. 合并两段音频本案例将两段毫无关系的音频通过复制和粘贴编排在一起，实现有趣的听觉效果，操作步骤如下。（1）启动Adobe Audition，执行“文件”→“打开”命令，打开文件“水中花.wav”和“同桌的你.ape”。（2）观察并播放选择的两段音频。（3）双击“同桌的你.ape”文件，使用时间选区工具选择需要复制的波形，如图5-27所示。（4）右击鼠标，在快捷菜单中选择“复制”命令。（5）双击“水中花.wav”文件，选择要粘贴波形的位置。（6）按Ctrl+V快捷键，粘贴音频。然后调节音量旋钮，使粘贴的音频和其他波形的音量相似，如图5-28所示。（7）执行“文件”→“另存为”命令，将文件保存为“水中花_同桌的你.wav”，按空格键播放音频，试听效果。 3. 制作个性手机铃声使用Adobe Audition波形编辑器中的复制与粘贴方法，将一段简短的、没有特色的音频，通过简单的复制、粘贴操作，制作出有趣的个性效果，然后将这段音频传到手机中作为手机铃声。其基本操作步骤如下：（1）启动Adobe Audition，打开文件“声音.wav”。（2）播放音频，选择音频波形最后的部分，如图5-29所示。（3）单击“缩放时间”面板上的“放大（时间）”按钮，将波形放大。（4）执行“编辑”→“过零”→“向外调节选区”命令，将选区对齐零交叉点，如图5-30所示。（5）执行“编辑”→“复制”命令，将选择音频部分复制。（6）缩小波形，单击波形尾部。（7）执行“编辑”→“粘贴”命令，将音频粘贴到原音频尾部。（8）使用同样的方法，再次粘贴复制的音频；还可配合其他编辑手段，得到有趣的音频效果。（9）执行“文件”→“另存为”命令，将文件保存为“手机音乐.mp3”，然后将音频通过数据线传输到手机上，即可将这段音频设置为手机铃声。 5.10 思考与练习 1. 声音是怎样发生的，怎样传播的？ 2. 声音特性的三个要素是什么？它们的具体含义是什么？ 3. 人耳的听觉频率范围是多少？ 4. 声音信号的数字化过程一般分为哪几个步骤？ 5. 常用的声音文件格式有哪些？ 6. 什么是语音识别？语音识别系统可以怎样分类？ 7. 什么是语音合成？文语转换系统的基本结构是什么？ 8. MIDI的含义是什么？ 9. 音乐合成有哪两种方法？它们各自的特点都是什么？ 10. 使用录音机软件录制一段声音。 11. 使用Adobe Audition制作一首有伴奏的自唱歌曲或者配乐诗朗诵。表5-1 国际标准GM的128种音色分类表音色号音色类别音色号音色类别 0~7 钢琴 64~71 簧管乐器 8~15 打击乐器 72~79 管鸣乐器 16~23 风琴 80~87 合成主音 24~31 吉他 88~95 合成音色 32~39 贝斯 96~103 合成效果 40~47 弦乐器 104~111 民间乐器 48~55 合奏/合唱 112~119 打击乐器 56~63 铜管乐器 120~127 声音效果图5-19 “混合式粘贴”对话框图5-20 位置型标记图5-21 范围型标记图5-22 “标记”面板图5-23 打开“水中花.mp4”文件图5-24 选择部分音频图5-25 复制的新文件图5-26 保存截取的音频图5-30 向外选区调节图5-29 选择音频最后部分