目录 第1部分入门篇 ●第1章全书指南3 1.1Python编程3 1.2数据分析5 1.3机器学习6 1.3.1任务9 1.3.2经验10 1.3.3性能11 1.4Kaggle竞赛13 1.5Git代码管理14 1.6章末小结15 ●第2章基本环境搭建与配置16 2.1Windows操作系统下基本环境的搭建与配置16 2.1.1查看Windows的版本与原始配置16 2.1.2下载并安装Anaconda3(Windows)17 2.1.3使用Anaconda Navigator创建虚拟环境python_env(Windows)19 2.1.4在虚拟环境python_env下使用Anaconda Navigator安装 Jupyter Notebook与PyCharm Professional(Windows)20 2.2macOS操作系统下基本环境的搭建与配置21 2.2.1查看macOS的版本与原始配置21 2.2.2下载并安装Anaconda3(macOS)23 2.2.3使用Anaconda Navigator创建虚拟环境python_env(macOS)24 2.2.4在虚拟环境python_env下使用Anaconda Navigator安装 Jupyter Notebook与PyCharm Professional(macOS)24〖1〗Python机器学习及实践——从零开始通往Kaggle竞赛之路(2022年度版)〖1〗目录2.3Ubuntu操作系统下基本环境的搭建与配置26 2.3.1查看Ubuntu的版本与原始配置26 2.3.2下载并安装Anaconda3(Ubuntu)27 2.3.3在终端中创建虚拟环境python_env(Ubuntu)28 2.3.4在虚拟环境python_env下使用conda命令安装Jupyter Notebook(Ubuntu)29 2.4Jupyter Notebook使用简介31 2.4.1在虚拟环境python_env下启动Jupyter Notebook31 2.4.2创建一个.ipynb文件32 2.4.3试运行.ipynb文件内的Python 3程序33 2.5PyCharm使用简介34 2.5.1在虚拟环境python_env下启动PyCharm34 2.5.2基于虚拟环境python_env的Python 3.8解释器创建一个 .py文件35 2.5.3试运行.py文件内的Python 3程序35 2.6章末小结37 第2部分基础篇 ●第3章Python编程基础41 3.1Python编程环境配置41 3.1.1基于命令行/终端的交互式编程环境41 3.1.2基于Web的交互式开发环境42 3.1.3集成式开发环境43 3.2Python基本语法44 3.2.1赋值44 3.2.2注释45 3.2.3缩进46 3.3Python数据类型46 3.4Python数据运算49 3.5Python流程控制53 3.5.1分支语句53 3.5.2循环控制55 3.6Python函数设计56 3.7Python面向对象编程57 3.8Python编程库(包)导入60 3.9Python编程综合实践62 3.10章末小结63 ●第4章pandas数据分析64 4.1pandas环境配置65 4.1.1使用Anaconda Navigator搭建和配置环境66 4.1.2使用conda命令搭建和配置环境66 4.2pandas核心数据结构67 4.2.1Series68 4.2.2DataFrame69 4.3pandas读取/写入文件数据70 4.3.1读取/写入CSV文件数据70 4.3.2读取/写入JSON文件数据73 4.3.3读取/写入Excel文件数据76 4.4pandas数据分析的常用功能80 4.4.1添加数据80 4.4.2删除数据83 4.4.3查询/筛选数据84 4.4.4修改数据86 4.4.5数据统计87 4.4.6数据排序89 4.4.7函数应用90 4.5pandas数据合并92 4.6pandas数据清洗93 4.7pandas数据分组与聚合95 4.8章末小结97 ●第5章Scikitlearn单机机器学习98 5.1Scikitlearn环境配置99 5.1.1使用Anaconda Navigator搭建和配置环境100 5.1.2使用conda命令搭建和配置环境100 5.2Scikitlearn无监督学习102 5.2.1降维学习与可视化102 5.2.2聚类算法113 5.3Scikitlearn监督学习模型121 5.3.1分类预测121 5.3.2数值回归141 5.4Scikitlearn半监督学习模型154 5.4.1自学习框架155 5.4.2标签传播算法157 5.5单机机器学习模型的常用优化技巧159 5.5.1交叉验证160 5.5.2特征工程162 5.5.3参数正则化170 5.5.4超参数寻优174 5.5.5并行加速训练176 5.6章末小结179 第3部分进阶篇 ●第6章PyTorch/TensorFlow/PaddlePaddle深度学习185 6.1PyTorch/TensorFlow/PaddlePaddle环境配置187 6.2前馈神经网络191 6.2.1前馈神经网络的PyTorch实践192 6.2.2前馈神经网络的TensorFlow实践197 6.2.3前馈神经网络的PaddlePaddle实践199 6.3卷积神经网络202 6.3.1卷积神经网络的PyTorch实践204 6.3.2卷积神经网络的TensorFlow实践208 6.3.3卷积神经网络的PaddlePaddle实践211 6.4循环神经网络214 6.4.1循环神经网络的PyTorch实践216 6.4.2循环神经网络的TensorFlow实践220 6.4.3循环神经网络的PaddlePaddle实践222 6.5自动编码器226 6.5.1自动编码器的PyTorch实践227 6.5.2自动编码器的TensorFlow实践231 6.5.3自动编码器的PaddlePaddle实践234 6.6神经网络模型的常用优化技巧238 6.6.1随机失活238 6.6.2批量标准化249 6.7章末小结260 ●第7章PySparkML分布式机器学习262 7.1PySpark环境配置264 7.1.1使用Anaconda Navigator搭建和配置环境264 7.1.2使用conda命令搭建和配置环境265 7.1.3安装JRE267 7.2PySpark分布式数据结构268 7.2.1RDD269 7.2.2DataFrame271 7.3PySpark分布式特征工程273 7.3.1特征抽取273 7.3.2特征转换279 7.4PySparkML分布式机器学习模型284 7.5分布式机器学习模型的常用优化技巧292 7.5.1留一验证293 7.5.2K折交叉验证295 7.6章末小结297 第4部分实践篇 ●第8章Kaggle竞赛实践301 8.1泰坦尼克号罹难乘客预测302 8.1.1数据分析303 8.1.2数据预处理305 8.1.3模型设计与寻优306 8.1.4提交测试307 8.2Ames房产价值评估308 8.2.1数据分析309 8.2.2数据预处理315 8.2.3模型设计与寻优316 8.2.4提交测试317 8.3推特短文本分类318 8.3.1数据分析320 8.3.2数据预处理321 8.3.3模型设计与寻优322 8.3.4提交测试323 8.4CIFAR100图像识别324 8.4.1数据分析326 8.4.2数据预处理327 8.4.3模型设计与寻优328 8.4.4提交测试331 8.5章末小结333 ●第9章Git代码管理334 9.1Git本地环境搭建335 9.1.1Windows下Git工具的安装与配置335 9.1.2macOS下Git工具的安装与配置336 9.1.3Ubuntu下Git工具的安装与配置336 9.2Git远程仓库配置337 9.2.1GitHub介绍337 9.2.2GitHub远程仓库的创建与配置338 9.2.3Gitee介绍339 9.2.4Gitee远程仓库的创建与配置339 9.3Git基本指令340 9.3.1克隆仓库340 9.3.2提交修改341 9.3.3远程推送343 9.4Git分支管理343 9.4.1创建分支344 9.4.2分支合并345 9.4.3合并冲突346 9.4.4删除分支347 9.5贡献Git项目348 9.5.1Fork项目348 9.5.2本地克隆、修改与推送349 9.5.3发起拉取请求349 9.6章末小结351 ●后记352 ●第1章简介篇1 1.1机器学习综述1 1.1.1任务3 1.1.2经验5 1.1.3性能5 1.2Python编程库8 1.2.1为什么使用Python8 1.2.2Python机器学习的优势9 1.2.3NumPy & SciPy10 1.2.4Matplotlib11 1.2.5Scikitlearn11 1.2.6Pandas11 1.2.7Anaconda12 1.3Python环境配置12 1.3.1Windows系统环境12 1.3.2Mac OS 系统环境17 1.4Python编程基础18 1.4.1Python基本语法19 1.4.2Python 数据类型20 1.4.3Python 数据运算22 1.4.4Python 流程控制26 1.4.5Python 函数(模块)设计28 1.4.6Python 编程库(包)的导入29 1.4.7Python 基础综合实践30 1.5章末小结33●第2章基础篇34 2.1监督学习经典模型34 2.1.1分类学习35 2.1.2回归预测64 2.2无监督学习经典模型81 2.2.1数据聚类81 2.2.2特征降维91 2.3章末小结97 ●第3章进阶篇98 3.1模型实用技巧98 3.1.1特征提升99 3.1.2模型正则化111 3.1.3模型检验121 3.1.4超参数搜索122 3.2流行库/模型实践129 3.2.1自然语言处理包(NLTK)131 3.2.2词向量(Word2Vec)技术133 3.2.3XGBoost模型138 3.2.4Tensorflow框架140 3.3章末小结152 ●第4章实战篇153 4.1Kaggle平台简介153 4.2Titanic罹难乘客预测157 4.3IMDB影评得分估计165 4.4MNIST手写体数字图片识别174 4.5章末小结180 ●后记181 ●参考文献182