目录







第1章防止过拟合

1.1过拟合和欠拟合的背后

1.2性能度量和损失函数

1.3假设空间和VC维

1.4偏差方差分解的意义

1.5正则化和参数绑定

1.6使用scikitlearn


第2章特征选择

2.1包裹法 Warpper

2.2过滤法 Filter

2.3嵌入法 Embedded

2.4使用scikitlearn


第3章回归算法中的贝叶斯

3.1快速理解判别式模型和生成式模型

3.2极大似然估计和平方损失

3.3最大后验估计和正则化

3.4贝叶斯线性估计

3.5使用scikitlearn


第4章分类算法中的贝叶斯

4.1广义线性模型下的sigmoid函数和softmax函数

4.2对数损失和交叉熵

4.3逻辑回归的多项式拓展和正则化

4.4朴素贝叶斯分类器

4.5拉普拉斯平滑和连续特征取值的处理方法

4.6使用scikitlearn


第5章非参数模型

5.1K近邻与距离度量

5.2K近邻与kd树

5.3决策树和条件熵

5.4决策树的剪枝

5.5连续特征取值的处理方法和基尼指数

5.6回归树

5.7使用scikitlearn








第6章核方法

6.1核方法的本质

6.2对偶表示和拉格朗日乘子法

6.3常见算法的核化拓展

6.4高斯过程

6.5使用scikitlearn


第7章混合高斯: 比高斯分布更强大

7.1聚类的重要问题

7.2潜变量与K均值

7.3混合高斯和极大似然估计的失效

7.4EM算法的核心步骤

7.5使用scikitlearn


第8章模型组合策略

8.1Bagging和随机森林

8.2Boosting的基本框架

8.3Adaboost

8.4GBDT和XGBoost

8.5使用scikitlearn


第9章核化降维和学习流形

9.1线性降维

9.2核化线性降维

9.3流形学习

9.4使用scikitlearn


第10章处理时间序列

10.1概率图模型和隐变量

10.2高阶马尔可夫模型

10.3隐马尔可夫模型

10.4隐马尔可夫模型的EM算法

10.5使用scikitlearn


参考文献