前言 随着互联网和移动通信技术的快速发展和普及应用,文本挖掘技术备受关注,尤其随着云计算、大数据和深度学习等一系列新技术的广泛使用,文本挖掘技术已经在众多领域(如舆情分析、医疗和金融数据分析等)发挥了重要作用,具有广阔的应用前景。 目前许多教材都是针对英文文本挖掘编写的,笔者将研究对象锁定在中文文本处理,系统讲述了中文文本理解的基本理论,列举研究成果,使之更加适合作为中文文本理解的工具书。本书的参考文献给出了许多中文信息处理的资源,读者可以由此找到所需的中文语料和工具集。 本书以中文文本数据为处理对象,对文本挖掘中的若干经典算法进行了阐述,主要包括分词、特征提取、文本表示、文本分类、文本聚类和文本关联规则。作为应用,第7章利用Python给出了处理文本数据的几个简单案例。 Python在数据挖掘和数据分析方面有着强大的功能,尤其是含有许多调用库,基本上已经达到了 应有尽有的程度。例如,NumPy(Numeric Python)提供了许多高级的数值编程工具,如 矩阵数据类型、矢量处理,以及精密的运算库,这些是Python的一种开源的数值计算扩展。 此外,还有基于Python的机器学习模块sklearn(ScikitLearn)等,所以Python用起来非常方便。在中文文本处理方面Python提供了比较成熟的jieba中文词库,以及用Python编写的类库SnowNLP,可以方便地处理中文文本内容。 本书的Python实验是利用Python 3.6(64位)完成的。 本书配套资源丰富,包括教学大纲、教学课件、电子教案、习题答案、实验指导和教学进度表,扫描封底的“课件下载”二维码,在公众号“书圈”下载; 本书还提供程序源码,扫描目录上方的二维码下载。 本书的编写得到了蔡博、郭倩倩和王红老师的大力帮助, 在此一并向他们表示衷心的感谢! 由于笔者知识水平有限,如有欠妥之处,敬请批评、指正。 刘金岭钱升华2020年8月