前言 互联网已经成为人们获取信息,相互交流、协同工作的重要途径,但同时互联网也带来一些负面影响,如色情等不良信息在网络中肆意传播,垃圾邮件、恶意营销广告等泛滥,网络欺诈、钓鱼以及网络暴力、网络恐怖主义等恶意行为层出不穷。这些恶意信息和行为完全背离了互联网设计的初衷,也不符合广大网民的意愿,并且影响现实的正常秩序。因此,研究网络信息内容安全,提供对互联网中各种不良信息的监测分析能力,是体现国家信息技术水平的重要环节,也是建设信息化社会的坚实保障。 互联网上各种不良信息和行为的产生,其原因主要在于互联网作为一个内容平台,人们可以更便利地获取、发布信息,而在互联网爆发性发展过程中,相关的规范制度、安全技术研究却未能同步发展。网络信息内容安全作为信息安全领域的一个研究分支,是上述问题的解决方案,它主要研究如何从包含海量信息的网络环境中,对特定安全主题的相关信息进行自动获取、识别和分析。该研究分支涉及的相关技术包括信息安全、自然语言处理、网络理论、机器学习、模式识别等,直接或间接应用到这些研究领域的最新研究成果。结合网络信息内容安全的具体需求,本书全面介绍与网络信息内容安全处理技术相关的基本概念、理论方法和最新研究进展等,着重阐述信息内容安全的若干关键技术——网络流量分析及入侵检测、 网络信息内容过滤、话题检测与跟踪、社会网络分析、网络舆情分析、开源情报分析、恶意代码 挖掘和检测等。本书内容全面,案例丰富,既有对基础知识和理论模型的介绍,也有对相关问题的研究背景、实现方法和技术现状的详细阐述。本书力求培养学生有效学习和分析信息的能力,以及引导把控网络空间信息内容的能力,并使学生具有一定的国际学术视野。本书自2017年2月出版,经过5年多的使用,根据编者在教学中的体会及学生和教师的反馈,对书中的相关内容进行了修缮改动。与第1版相比,第2版增加了一些网络信息内容安全分析的流行应用,同时删除了一些陈旧或使用较少的知识,使教材内容更加精练丰富。具体体现在以下方面: (1) 增加了第4章网络流量分析及入侵检测的内容; (2) 增加了第10章恶意代码挖掘和检测的内容; (3) 第2章增加了网络信息获取方法等内容; (4) 第3章增加了网络信息内容安全分析方法等内容; (5) 第5章增加了基于朴素贝叶斯算法的垃圾邮件过滤的案例内容; (6) 第7章增加了基于PageRank的社会网络节点重要性评估及高级水军检测等内容; (7) 第8章增加了舆情数据聚类分析等内容; (8) 其他章节在内容描述及编排上有所调整,使其内容更贴切、充实。 本书各章编写分工如下: 杨黎斌编写第1、4、5、9、10章; 蔡晓妍编写第6~8章; 戴航编写第2、3章。杨黎斌负责全书的策划、大纲的制定和统稿工作。 在本书的编写过程中,参考了国内外许多公开发表的相关资料,在此对所涉及的各位专家、学者表示诚挚的感谢。研究生郝智栋和陈嘉炜对本书的图表进行编辑,梅欣、王楠鑫对本书进行校对并提出宝贵的建议,特此表示感谢。 由于编写时间紧迫,加之编者理论水平和实践经验有限,书中难免有不当和疏漏之处,恳请广大读者批评指正。 编者 2022年5月