前言 音乐是人类精神文明的重要产物,是人类灵魂的最佳安慰剂。在中华民族 五千年的文明中,礼乐文明是重要的组成部分,其中“乐”就是指音乐。古代 先贤十分重视音乐在社会文明发展、社会秩序维护方面的重要作用,认为音乐 可以帮助维护社会和谐,即所谓“乐至则无怨,礼至则不争”的社会发展理想 境界。孔子开经授课,讲授《诗》《书》《礼》《乐》,这些著作构筑了儒家 博大精深的政治理论体系,孔子也曾在齐国闻《韶》乐而三月不知肉味,可见 音乐对社会和个人精神文明的深远影响。 随着网络和大规模数字音乐产业的发展,音乐的获取和收听以更加便捷的 方式呈现在用户面前,如何从海量的互联网数字音乐数据中,找到用户喜闻乐 见的音乐,成为音乐信息检索领域要解决的关键问题和主要目标。常见的音乐 检索都是以文本检索为主要手段,需要大量的人工标注,大大阻碍了音乐作品 的检索和传播,成为数字音乐产业发展的瓶颈问题。 音乐是人类思维的产物,以物理波形为载体,传递着人们对生活的理解和 主观感受。情感是音乐先天的属性,音乐是最能够表达人类思想和传播文化的 途径。人工智能发展到今天也不同程度地遇到了“语义瓶颈”,如何让机器理 解和表达人类情感,成为人工智能技术无法跨越的鸿沟。 为了探索机器理解语义的方法,本书从音乐这一情感载体入手,详细论述 了从基于音乐内容到音乐语义的信息检索模式,从而为机器理解人类情感打开 一扇有趣的窗口。本书的研究思路、研究方法及其发展历程,在文本、图像和 视频领域有相通之处,本书也能使读者进一步理解多媒体信号语义提取方法和 应用。 本书融合了作者十余年来在该领域学习研究的经验,对相关算法和方法的 IV AI探视人类情感原理与实践——人工智能驱动的音乐信息检索 论述深入浅出,使得读者能够理论联系实际,更快地从事该领域的工作。 作为计算机领域的专业书籍、科普读物,本书总结、回顾了计算机领域对 音乐检索做出的研究工作,为计算机科普人员、青少年读者、模式识别和人工 智能领域研究人员、语音处理和互联网多媒体技术研究人员、IT从业者、数字 音乐产业服务人员、音乐服务提供商进一步学习和从事音乐信息检索方向的工 作,提供坚实的理论和实践案例。 感谢北京师范大学周明全教授、西北大学耿国华教授、大连理工大学林鸿 飞教授提供的指导,感谢安雯、孙法莉、马雪倩、高福杰、王伟滨、蒋卓同学 的帮助。 衷心感谢清华大学出版社的大力支持和协助,使本书能够顺利出版。 由于作者的水平有限,书中难免有不足和疏漏之处,恳请各位读者提出批 评和建议,以便进一步修订和改进。 秦静