前言 这本书是对使用深度学习(深度人工神经网络)生成音乐内容的不同方法的一个综述。我们提出了以下基于五个维度的分析方法。 1. 目标 (1) 要生成什么内容的音乐?例如,生成单旋律、复调、伴奏或对位。 (2) 针对什么目的?有什么用途?例如,由人(按乐谱软件(musical score)上的谱子)来演奏,还是由机器(打开音频文件)来演奏。 2. 表示 (1) 需要知道什么样的数据?例如,波形数据、光谱图数据、音符数据、和弦数据、节拍和拍子表示。 (2)要使用什么样的数据格式?例如,MIDI文件、钢琴打孔卷文件、文本格式文件的表示。 (3) 如何进行数据的编码表示?例如,采用标量编码、独热(onehot)编码或多热(manyhot)编码的数据编码表示。 3. 架构 要使用哪种类型的深度神经网络?例如,前馈神经网络、递归神经网络、自编码器或生成对抗网络。 4. 挑战 面临的限制性和开放性的挑战是什么?例如,要能生成有一定变化的音乐,系统要具有一定的人机交互能力,要能生成具有一定创新性的音乐。 5. 策略 如何建模和控制音乐的生成过程?例如,采用单步前馈、迭代前馈算法,对数据如何进行采样或进行输入操控,等等。 对于上面提到的这五个维度,我们对各种模型和技术进行了比较分析,并尝试着把它们划分到相应的多维度类别中。本书采用的是“自下而上”的分析方法,即对许多现有的相关文献中提到的基于深度学习的音乐生成系统进行分析。本书中描述了这些提到的系统,并举例说明上面提到的五种维度(即目标、表示、架构、挑战和策略)的具体实现。本书最后部分包括一些讨论和对未来发展的展望,以及书中涉及的目录、表格、图示、缩略词表、参考书目、词汇表和索引等。 JeanPierre Briot 于巴黎和里约热内卢Gatan Hadjeres 于巴黎FranoisDavid Pachet 于巴黎译者序随着音乐大数据技术的发展,在通过相关工具完成对数字音乐数据的提取与处理后,可以基于人工智能算法完成音乐内容自动生成工作。在人工智能和大数据时代,让算法与乐理携手、代码与音符合作、模型与旋律交互,并在此基础上探索基于深度学习的音乐生成,是十分有趣且必要的。这不仅能为音乐人提供创作思路,也能在个性化音乐作品推荐等方面发挥作用。它不仅在音乐创作、提高艺术素养方面具有重要应用价值,也可为人机交互的深入研究奠定坚实基础,并促使基础研究成果走向应用。但目前这项工作仍面临一些挑战。首先,是生成旋律的风格。音乐旋律生成的风格类型可大致分为单音主旋律、复调或伴奏等,每种生成风格的规则都存在差异,如巴赫的复调音乐与肖邦的浪漫主义风格音乐在表现力上有诸多不同,而最终生成的音乐作品风格与原始参与训练的音乐大数据音乐语料有很大关系。第二,是生成旋律的方式。生成旋律的方式可以是在制定好的一些音乐规则下干预神经网络的训练与预测过程,也可以完全通过神经网络自动生成旋律。但我们认为,音乐创作是一种艺术的创作,而艺术是不能完全由机器来替代的。未来的音乐内容自动生成系统不应该是流程化的全自动作曲,而应该在“以人为本”的前提下,发挥人工智能算法的辅助能力,帮助音乐制作人完成编曲,而不是完全取代音乐家的人工创作。第三,是生成的音乐表现力。编曲是一个复杂的过程,它不仅要考虑音乐的旋律、节奏、情感,还要考虑不同音轨间的和谐性、不同乐器间的协调性。基于人工智能技术训练的音乐可能会比较“完美”地定制量化,生成速度、节奏、风格等相对一致但比较机械的声音,却缺乏像组曲“黄河颂”、奏鸣曲“悲怆”等强烈的感染力,可能生成的音乐信息过于机械化且响度变化小,最终缺失音乐表现力。第四,生成旋律的和声、复调与变奏效果。和声体现了音乐的主体,它包括和弦与和声进行,目前有的工具软件已能够对常见和弦进行提取。但基于神经网络学习的方式,往往着眼于局部细节,对作品旋律缺乏整体把控。计算机在进行横向序列学习时还要考虑到纵向的对位与旋律和声的复调特性。以钢琴音乐为例,左右手既存在差异,又必须相互联系(如对位等),这是音乐内容自动生成的难点。虽然存在上述困难,但我们认为,智能音乐的发展无疑简化了繁杂的音乐创作流程,但作曲仍是一种艺术创作,音乐内容自动生成并不会完全取代传统的音乐创作过程,未来基于人工智能算法的音乐内容自动生成的发展方向将是以深度学习和音乐规则有机结合的方法,而更专业的作曲要求也使人为规则在整个创作过程中仍占有比较重要的地位,二者的有机融合,对自动作曲的健康发展是大有益处的。 原著团队也拥有音乐与数据分析工作的丰富经验。这部跨人工智能算法与音乐创作的交叉性学科著作从实践角度出发,以神经网络与音乐数据表示为基础,以音乐内容生成与处理为应用,介绍了如何有效地构建基于深度学习模型的智能音乐生成的解决方案,并结合一些具体实例,介绍了部分关键技术。本书由浅入深地介绍了有关的基础知识,讨论了相关的方法(如从五个维度来描述应用深度学习技术生成音乐内容的不同方式)、目标(如类型、应用、模式、风格)、表示(如符号化数据表示、音频格式、编码等)、架构(如前馈神经网络、自动编码器、受限玻尔兹曼机、递归神经网络等)、面临的挑战与策略(如生成长度及内容可变的旋律、提高音乐表现力的方法等)、分析(如各系统对比、相关性分析)等,并就相关问题进行了探讨和展望。 我们认为,无论对深度学习算法的研究者还是从事电子音乐创作的专业音乐人,本书都是很有参考价值的。它不仅内容全面、强调实践,而且表达比较通俗易懂。由于本书涉及很多机器学习、音乐理论等诸多交叉学科的内容,为方便具有不同专业背景的读者理解本书的内容,原著最后列出了术语解释。为了便于读者理解,在本译文中,以英文方式保留了在原文中采用斜体标注的重要术语,在译著最后的术语中也保留了术语对应的原文。由于译著与原著页码无法一一对应,因此略去原著最后的索引(Index)部分。 本书由高凯、仇元喆、刘一贺等合作翻译,最后由高凯完成了全书的审校工作。本书得到2022年河北省自然科学基金(编号: F2022208006)的支持。译者团队研究方向为自然语言处理、多模态智能信息处理、实体关系抽取与发现、智能音乐生成、信息检索等;译者团队中的主要人员均有一定的乐理基础和一定的钢琴弹奏能力。因此,在翻译过程中,我们也适当地添加了部分计算机专业和乐理方面的标注,以期能为具有不同专业背景的读者理解这部跨学科著作带来便利。在本书翻译及出版过程中,也得到了其他多方面的支持与帮助,清华大学出版社给予了大力的支持与协助,在此一并表示衷心感谢。 “信、达、雅”是我们翻译此书所追求的目标。尽管我们竭尽全力,但毕竟水平有限,且这部跨学科的著作涉及面广,译文中对部分音乐术语、算法描述等方面的翻译难免有不足和有待商榷之处,敬请广大读者批评指正。 译者 2023年1月