目录 第1章绪论 1.1概况 1.2数据分析 1.2.1流程 1.2.2算法分类 1.2.3基本原则 1.3算法基础 1.4本章小结 习题 第2章特征工程 2.1问题导入 2.2特征提取 2.3特征探索性分析 2.3.1单变量分析 2.3.2多变量分析 2.4特征预处理 2.4.1缺失值处理 2.4.2异常值处理 2.4.3特征变换 2.5特征选择 2.5.1过滤法 2.5.2封装法 2.5.3嵌入法 2.6案例: 工业设备信号特征工程 2.7本章小结 习题 第3章多类型数据表征 3.1问题导入 3.2时序数据表征 3.2.1频域特征 3.2.2时频域特征 3.3文本数据表征 3.3.1词袋模型 3.3.2TFIDF特征 3.3.3词向量嵌入 3.4图像数据表征 3.4.1图像处理基础 3.4.2SIFT 3.4.3HOG 3.4.4深度特征表示 3.4.5多模态特征融合 3.5案例: 农作物病虫害图像表征 3.6本章小结 习题 第4章数据抽样 4.1问题导入 4.2概率抽样 4.3非均衡抽样 4.3.1样本分布不均衡问题 4.3.2过采样 4.3.3欠采样 4.4数据流抽样 4.4.1数据流抽样问题 4.4.2蓄水池抽样 4.5蒙特卡洛抽样 4.5.1直接采样 4.5.2接受拒绝采样 4.5.3重要性采样 4.6案例: 基于SMOTE的信用卡交易欺诈数据采样 4.7本章小结 习题 第5章图计算 5.1问题导入 5.2图网络 5.2.1图网络表示 5.2.2网络结构分类 5.2.3网络描述性统计 5.3图基础算法 5.3.1图遍历 5.3.2图分割 5.4社区发现 5.4.1模块度 5.4.2GN算法 5.4.3谱方法 5.5GraphScope简介 5.6案例: 基于谱聚类的图像分割 5.7本章小结 习题 第6章随机优化算法 6.1问题导入 6.2梯度下降算法 6.3随机梯度下降算法 6.4梯度加速方法 6.4.1动量法 6.4.2Nesterov梯度加速 6.4.3自适学习率加速方法 6.5方差缩减 6.5.1方差缩减技术 6.5.2方差缩减算法 6.6案例: 逻辑回归模型优化算法 6.7本章小结 习题 第7章相似性度量 7.1问题导入 7.2相关系数 7.2.1皮尔逊相关系数 7.2.2余弦相似度 7.2.3Jaccard相似系数 7.3距离度量 7.3.1欧氏空间的距离度量 7.3.2流形空间的距离度量 7.3.3时间序列的距离度量 7.4概率散度 7.4.1f散度 7.4.2积分概率度量 7.5案例: 金融时间序列数据分析 7.6本章小结 习题 第8章关联性分析 8.1问题导入 8.2非线性相关性分析 8.3典型关联分析 8.4关联规则 8.4.1关联规则描述 8.4.2关联规则挖掘 8.4.3数值型关联规则挖掘 8.5因果分析 8.5.1结构因果模型与图模型 8.5.2因果效应评估 8.6案例: 购物车数据挖掘 8.7本章小结 习题 参考文献