目录

第1章绪论

1.1概况

1.2数据分析

1.2.1流程

1.2.2算法分类

1.2.3基本原则

1.3算法基础

1.4本章小结

习题

第2章特征工程

2.1问题导入

2.2特征提取

2.3特征探索性分析

2.3.1单变量分析

2.3.2多变量分析

2.4特征预处理

2.4.1缺失值处理

2.4.2异常值处理

2.4.3特征变换

2.5特征选择

2.5.1过滤法

2.5.2封装法

2.5.3嵌入法

2.6案例: 工业设备信号特征工程

2.7本章小结

习题

第3章多类型数据表征

3.1问题导入

3.2时序数据表征

3.2.1频域特征

3.2.2时频域特征

3.3文本数据表征

3.3.1词袋模型

3.3.2TFIDF特征

3.3.3词向量嵌入

3.4图像数据表征

3.4.1图像处理基础

3.4.2SIFT

3.4.3HOG

3.4.4深度特征表示

3.4.5多模态特征融合

3.5案例: 农作物病虫害图像表征

3.6本章小结

习题

第4章数据抽样

4.1问题导入

4.2概率抽样

4.3非均衡抽样

4.3.1样本分布不均衡问题

4.3.2过采样

4.3.3欠采样

4.4数据流抽样

4.4.1数据流抽样问题

4.4.2蓄水池抽样

4.5蒙特卡洛抽样

4.5.1直接采样

4.5.2接受拒绝采样

4.5.3重要性采样

4.6案例: 基于SMOTE的信用卡交易欺诈数据采样

4.7本章小结

习题

第5章图计算

5.1问题导入

5.2图网络

5.2.1图网络表示

5.2.2网络结构分类

5.2.3网络描述性统计 

5.3图基础算法

5.3.1图遍历

5.3.2图分割

5.4社区发现

5.4.1模块度

5.4.2GN算法

5.4.3谱方法

5.5GraphScope简介

5.6案例: 基于谱聚类的图像分割

5.7本章小结

习题

第6章随机优化算法

6.1问题导入

6.2梯度下降算法

6.3随机梯度下降算法

6.4梯度加速方法

6.4.1动量法

6.4.2Nesterov梯度加速

6.4.3自适学习率加速方法 

6.5方差缩减

6.5.1方差缩减技术

6.5.2方差缩减算法

6.6案例: 逻辑回归模型优化算法

6.7本章小结

习题

第7章相似性度量

7.1问题导入

7.2相关系数

7.2.1皮尔逊相关系数

7.2.2余弦相似度

7.2.3Jaccard相似系数

7.3距离度量

7.3.1欧氏空间的距离度量

7.3.2流形空间的距离度量

7.3.3时间序列的距离度量

7.4概率散度

7.4.1f散度

7.4.2积分概率度量

7.5案例: 金融时间序列数据分析

7.6本章小结

习题

第8章关联性分析

8.1问题导入

8.2非线性相关性分析

8.3典型关联分析

8.4关联规则

8.4.1关联规则描述

8.4.2关联规则挖掘

8.4.3数值型关联规则挖掘

8.5因果分析

8.5.1结构因果模型与图模型

8.5.2因果效应评估

8.6案例: 购物车数据挖掘

8.7本章小结

习题

参考文献