目录 第1章机器学习概述 资源下载 1.1机器学习的组成 1.2分类问题及回归问题 1.3监督学习、半监督学习和无监督学习 1.4生成模型及判别模型 1.5模型评估 1.5.1训练误差及泛化误差 1.5.2过拟合及欠拟合 1.6正则化 1.7Scikitlearn模块 1.7.1数据集 1.7.2模型选择 第2章逻辑回归及最大熵模型 2.1线性回归 2.1.1一元线性回归 2.1.2多元线性回归 2.2广义线性回归 2.2.1逻辑回归 2.2.2多分类逻辑回归 2.2.3交叉熵损失函数 2.3最大熵模型 2.3.1最大熵模型的导出 2.3.2最大熵模型与逻辑回归之间的关系 2.4评价指标 2.4.1混淆矩阵 2.4.2准确率 2.4.3精确率与召回率 2.4.4PR曲线 2.4.5ROC曲线与AUC曲线 2.5实例: 基于逻辑回归实现乳腺癌预测 第3章k近邻算法 3.1k值的选取 3.2距离的度量 3.3快速检索 3.4实例: 基于k近邻算法实现鸢尾花分类 第4章决策树 4.1特征选择 4.1.1信息增益 4.1.2信息增益比 4.2决策树生成算法CART 4.3决策树剪枝 4.3.1预剪枝 4.3.2后剪枝 4.4实例: 基于决策树实现葡萄酒分类 第5章朴素贝叶斯分类器 5.1极大似然估计 5.2朴素贝叶斯分类 5.3拉普拉斯平滑 5.4朴素贝叶斯分类器的极大似然估计解释 5.5实例: 基于朴素贝叶斯实现垃圾短信分类 第6章支持向量机 6.1最大间隔及超平面 6.2线性可分支持向量机 6.3线性支持向量机 6.4合页损失函数 6.5核技巧 6.6二分类问题与多分类问题 6.6.1一对一 6.6.2一对多 6.6.3多对多 6.7实例: 基于支持向量机实现葡萄酒分类 第7章集成学习 7.1偏差与方差 7.2Bagging及随机森林 7.2.1Bagging 7.2.2随机森林 7.3Boosting及AdaBoost 7.3.1Boosting 7.3.2AdaBoost 7.4提升树 7.4.1残差提升树 7.4.2GBDT 7.4.3XGBoost 7.5Stacking 7.6实例: 基于梯度下降树实现波士顿房价预测 第8章EM算法及其应用 8.1Jensen不等式 8.2EM算法 8.3高斯混合模型GMM 8.4隐马尔可夫模型 8.4.1计算观测概率的输出 8.4.2估计隐马尔可夫模型的参数 8.4.3隐变量序列预测 8.5实例: 基于高斯混合模型实现鸢尾花分类 第9章降维 9.1主成分分析 9.1.1方差即协方差的无偏估计 9.1.2实例: 基于主成分分析实现鸢尾花数据降维 9.2奇异值分解 9.2.1奇异值分解的构造 9.2.2奇异值分解用于数据压缩 9.2.3SVD与PCA的关系 9.2.4奇异值分解的几何解释 9.2.5实例: 基于奇异值分解实现图片压缩 第10章聚类 10.1距离度量 10.1.1闵可夫斯基距离 10.1.2余弦相似度 10.1.3马氏距离 10.1.4汉明距离 10.2层次聚类 10.3KMeans聚类 10.4KMedoids聚类 10.5DBSCAN 10.6实例: 基于KMeans实现鸢花聚类 第11章神经网络与深度学习 11.1神经元模型 11.2多层感知机 11.3损失函数 11.4反向传播算法 11.4.1梯度下降法 11.4.2梯度消失及梯度爆炸 11.5卷积神经网络 11.5.1卷积 11.5.2池化 11.5.3网络架构 11.6循环神经网络 11.7生成对抗网络 11.8图卷积神经网络 11.9深度学习发展 11.10实例: 基于卷积神经网络实现手写数字识别 11.10.1MNIST数据集 11.10.2基于卷积神经网络的手写数字识别 第12章实战: 基于KMeans算法的汽车行驶运动学片段的分类 12.1样本聚类 12.1.1SSE 12.1.2轮廓分析 12.2汽车行驶运动学片段的提取 12.3基于KMeans的汽车行驶运动学片段分类 第13章实战: 从零实现朴素贝叶斯分类器用于垃圾信息识别 13.1算法流程 13.2数据集载入 13.3朴素贝叶斯模型 13.3.1构造函数设计 13.3.2数据预处理 13.3.3模型训练 13.3.4测试集预测 13.3.5主函数实现 第14章实战: 基于逻辑回归算法进行乳腺癌的识别 14.1数据集加载 14.2Logistic模块 14.3模型评价 第15章实战: 基于线性回归、决策树和SVM进行鸢尾花分类 15.1使用Logistic实现鸢尾花分类 15.2使用决策树实现鸢尾花分类 15.3使用SVM实现鸢尾花分类 第16章实战: 基于多层感知机模型和随机森林模型的波士顿房价预测 16.1使用MLP实现波士顿房价预测 16.2使用随机森林模型实现波士顿房价预测 第17章实战: 基于生成式对抗网络生成动漫人物 17.1生成动漫人物任务概述 17.2反卷积网络 17.3DCGAN 17.4基于DCGAN的动漫人物生成 第18章实战: 基于主成分分析法、随机森林算法和SVM算法的人脸识别问题 18.1数据集介绍与分析 18.2LBP算子 18.3提取图片特征 18.4基于随机森林算法的人脸识别问题 18.5基于SVM算法的人脸识别问题 第19章实战: 使用多种机器学习算法实现基于用户行为数据的用户分类器 19.1基于机器学习的分类器的技术概述 19.2工程数据的提取聚合和存储 19.2.1数据整合的逻辑流程 19.2.2Sqoop数据同步 19.2.3基于Hive的数据仓库 19.2.4基于Azkaban的数据仓库的调度任务 19.2.5数据仓库的数据集成和数据清洗 19.2.6整合后的数据表 19.3数据展示和分析 19.3.1数据集的选取和业务背景的描述 19.3.2各维度信息详细说明 19.3.3各维度数据的描述性统计 19.3.4各维度数据的可视化 19.4特征工程 19.4.1标准化 19.4.2区间缩放 19.4.3归一化 19.4.4对定性特征进行onehot编码 19.4.5缺失值填补 19.4.6数据倾斜 19.5模型训练和结果评价 19.5.1构造模型思路 19.5.2模型训练的流程 19.5.3KFold交叉验证 19.6各分类器模型的训练和结果评价 19.6.1利用Python的sklearn包进行模型训练的过程梳理 19.6.2逻辑斯谛分类模型的训练和结果评价 19.6.3最小近邻算法模型的训练和结果评价 19.6.4线性判别分析模型的训练和结果评价 19.6.5朴素贝叶斯算法的模型的训练和结果评价 19.6.6决策树模型的训练和结果评价 19.6.7支持向量机模型的训练和结果评价 19.7模型提升——集成分类器 19.7.1Boosting提升算法 19.7.2AdaBoost提升算法 19.7.3AdaBoost实现过程及实验结果 附录A用户历史充值情况数据表 附录B用户各类订单余额情况 附录C各省用户收到公示消息后的充值情况 参考文献