前言 本书从算法的角度介绍数据挖掘使用的技术和相关的应用。第1章介绍数据挖掘的基本概念。第2章介绍数据和数据集的基本概念,并简单介绍大数据。第3章是数据挖掘中重要的第一步——数据的预处理;本章通过代码和实例展示及说明如何对结构化数据、非结构化文本数据进行预处理。第4章介绍分类任务的基本算法,包括常用的KNN、SVM、随机森林、朴素贝叶斯等,并附有相应的代码;同时,介绍特征选择的方法和特征权重的概念,及其在分类算法中的作用;此外,本章还对类别不平衡、模糊分类、多分类等情况进行详细的介绍,并给出相应的实战演练。近年来,深度学习模型在很多数据挖掘任务中表现突出。第5章介绍基于深度学习的分类算法,如常用的CNN、RNN、LSTM算法在结构化数据、图像、文本数据上的分类。第6章介绍层次聚类、基于密度的聚类、主题模型等主流聚类算法,及其在结构化数据和文本数据上的应用。第7章介绍个性化建模的方法及基于不同方式的推荐算法,如基于内容、协同过滤、主题模型、深度学习、混合推荐等算法。 本书的每一章都配有相关的代码、实例以及练习题,希望能够帮助读者更深入地理解和运用数据挖掘算法。 编者 2023年6月