随书资源



目录
第1章绪论

1.1日益增长的数据

1.1.1大数据的基本概念

1.1.2大数据的基本特征

1.1.3大数据的发展历程

1.2人工智能初窥

1.2.1人工智能的历史

1.2.2人工智能的发展现状

1.2.3人工智能的发展前景

1.2.4大数据与人工智能

第2章数据工程

2.1数据工程的一般流程

2.2数据获取

2.2.1数据采集方法

2.2.2大数据采集平台

2.3数据存储与数据仓库

2.3.1数据存储

2.3.2数据仓库

2.4数据预处理

2.4.1数据清理

2.4.2数据集成

2.4.3数据变换

第3章机器学习算法

3.1算法概述 

3.1.1线性回归

3.1.2逻辑回归

3.1.3线性判别分析

3.1.4分类与回归树分析

3.1.5朴素贝叶斯

3.1.6k最近邻算法

3.1.7学习矢量量化

3.1.8支持向量机

3.1.9Bagging和随机森林

3.1.10Boosting和AdaBoost

3.2支持向量机算法

3.2.1线性支持向量机

3.2.2非线性支持向量机

3.2.3支持向量机算法求解

3.3逻辑回归算法

3.3.1线性回归算法

3.3.2逻辑回归

3.3.3用PyTorch实现逻辑回归算法

3.4聚类算法

3.4.1KMeans聚类

3.4.2均值漂移聚类 

3.4.3基于密度的聚类方法

3.5机器学习算法总结

3.5.1逻辑回归和朴素贝叶斯

3.5.2逻辑回归和支持向量机

3.5.3Bagging、随机森林和Boosting







第4章深度学习

4.1神经网络基础知识

4.1.1深度神经网络

4.1.2正向传播

4.1.3激活函数

4.2神经网络的训练

4.2.1神经网络的参数

4.2.2向量化

4.2.3价值函数

4.2.4梯度下降和反向传播

4.3神经网络的优化和改进

4.3.1神经网络的优化策略

4.3.2交叉验证

4.3.3正则化方法

4.4卷积神经网络

4.4.1卷积运算

4.4.2池化层

4.4.3CNN实例

4.5深度学习的优势

4.5.1计算机视觉

4.5.2自然语言处理

4.5.3强化学习

4.6深度学习训练与推理框架

4.6.1训练框架

4.6.2推理框架

第5章大数据存储

5.1大数据存储技术发展

5.2海量数据存储的关键技术

5.2.1数据分片与路由

5.2.2数据复制与一致性

5.3重要数据结构和算法

5.3.1Bloom Filter

5.3.2LSM Tree

5.3.3Merkle Tree

5.3.4Cuckoo Hash

5.4分布式文件系统

5.4.1文件存储格式

5.4.2GFS

5.4.3HDFS

5.5分布式数据库NoSQL

5.5.1NoSQL数据库概述

5.5.2KV数据库

5.5.3列式数据库

5.6HBase数据库搭建与使用

5.6.1HBase伪分布式运行

5.6.2HBase分布式运行

第6章Hadoop MapReduce解析

6.1Hadoop MapReduce架构

6.2MapReduce工作机制

6.2.1Map

6.2.2Reduce

6.2.3Combine

6.2.4Shuffle

6.2.5Speculative Task

6.2.6任务容错

6.3应用案例

6.3.1WordCount

6.3.2WordMean

6.3.3Grep

第7章Spark解析

7.1Spark RDD

7.2Spark与MapReduce的比较

7.3Spark工作机制

7.3.1DAG

7.3.2Partition

7.3.3容错机制

7.3.4内存管理

7.3.5数据持久化

7.4数据读取

7.5应用案例

7.5.1日志挖掘

7.5.2判别西瓜好坏

第8章分布式数据挖掘算法

8.1KMeans聚类算法

8.1.1KMeans并行化思路

8.1.2KMeans分布式实现

8.2逻辑回归算法实现

8.2.1逻辑回归算法并行化思路

8.2.2逻辑回归算法分布式实现

8.3朴素贝叶斯分类算法

8.3.1朴素贝叶斯分类算法并行化思路

8.3.2朴素贝叶斯分布式实现

第9章PyTorch解析

9.1PyTorch的基本知识

9.1.1PyTorch概述

9.1.2PyTorch与其他深度学习框架的比较

9.2PyTorch基本操作

9.2.1Tensor对象及其运算

9.2.2Tensor的索引和切片

9.2.3Tensor的变换、拼接和拆分

9.2.4PyTorch的归纳操作

9.2.5PyTorch的自动微分

9.3应用案例

9.3.1在Spark上训练和运行PyTorch模型

9.3.2用PyTorch进行手写数字识别

第10章案例： Hadoop平台的搭建和数据分析

10.1构建虚拟机网络

10.1.1VirtualBox安装及配置

10.1.2Ubuntu虚拟机安装及配置

10.1.3修改Ubuntu系统内网络配置

10.2大数据环境安装

10.2.1Java安装

10.2.2Hadoop安装

10.3应用案例

10.3.1日志分析

10.3.2交通流量分析

第11章案例： 基于Spark的搜索引擎日志用户行为分析

11.1功能需求

11.1.1搜索引擎用户行为分析的意义

11.1.2搜索引擎日志概述

11.2系统架构

11.2.1用户搜索流程

11.2.2系统架构设计

11.3功能实现

11.3.1Spark本地运行环境搭建

11.3.2搜索引擎日志数据获取

11.3.3分析指标

11.3.4Spark任务提交

第12章案例： 使用Spark实现数据统计分析及性能优化

12.1系统架构

12.1.1总体方案

12.1.2详细设计

12.1.3优化设计

12.2具体实现

12.2.1数据获取

12.2.2数据可视化

12.3性能优化

12.3.1读取优化

12.3.2查询优化

12.3.3Spark参数级优化

第13章案例： 使用Spark和HBase实现商品批量存储

13.1HBase数据库设计

13.2复杂数据处理

13.2.1数据读取

13.2.2压缩信息

13.2.3解压信息

13.3数据读写

13.3.1从Hive获取数据表

13.3.2将数据复制到HBase集群

13.3.3读取数据

第14章案例： 使用Keras进行人脸关键点检测

14.1深度学习模型

14.1.1数据集获取

14.1.2卷积神经网络的搭建与训练

14.2模型评价

14.2.1关键点坐标可视化

14.2.2训练历史可视化

第15章案例： 使用PyTorch实现基于词级别的情感分析

15.1数据集处理

15.2模型搭建

15.2.1MemNet模型

15.2.2IAN模型

15.2.3AOA模型

15.3训练和评测

第16章案例： 短语视觉定位

16.1短语视觉定位概述

16.2相关工作

16.2.1问题定义

16.2.2先前方法

16.3方法

16.3.1概述

16.3.2特征编码

16.3.3邻域交互模块

16.3.4全局交互模态

16.3.5模态间融合

16.3.6多模态对齐

16.3.7训练与预测

16.4代码与实现

16.5实验

16.5.1数据集

16.5.2实现细节

16.5.3实验结果

第17章案例： 使用PyTorch进行视觉问答

17.1视觉问答简介

17.2基于BottomUp Attention的联合嵌入模型

17.3准备工作

17.3.1下载数据

17.3.2安装必需的软件包

17.3.3使用配置文件

17.4实现基础模块

17.4.1FCNet模块

17.4.2SimpleClassifier模块

17.5实现问题嵌入模块

17.5.1词嵌入

17.5.2RNN

17.6实现TopDown Attention模块

17.7组装完整的VQA系统

17.8运行VQA实验

17.8.1训练

17.8.2可视化

第18章案例： 使用Hadoop和MapReduce分布式计算语料中单词出现的频数

18.1MapReduce介绍

18.2MapReduce实现WordCount程序

18.2.1上传数据到HDFS

18.2.2使用Hadoop运行WordCount程序

18.2.3停止Hadoop

第19章案例： 使用多种机器学习算法实现基于用户行为数据的用户分类器

19.1基于机器学习的分类器的技术概述

19.2工程数据的提取聚合和存储

19.2.1数据整合的逻辑流程

19.2.2Sqoop数据同步

19.2.3基于Hive的数据仓库

19.2.4基于Azkaban的数据仓库的调度任务

19.2.5数据仓库的数据集成和数据清洗

19.2.6整合后的数据表

19.3数据展示和分析

19.3.1数据集的选取和业务背景的描述

19.3.2各维度信息详细说明

19.3.3各维度数据的描述性统计

19.3.4各维度数据的可视化

19.4特征工程

19.4.1标准化

19.4.2区间缩放

19.4.3归一化

19.4.4对定性特征进行独热（onehot）编码

19.4.5缺失值填补

19.4.6数据倾斜

19.5模型训练和结果评价

19.5.1构造模型思路 

19.5.2模型训练的流程

19.5.3Kfold交叉验证

19.6各分类器模型的训练和结果评价

19.6.1利用Python的sklearn包进行模型训练的过程梳理

19.6.2逻辑回归模型的训练和结果评价

19.6.3k最近邻模型的训练和结果评价

19.6.4线性判别分析模型的训练和结果评价

19.6.5朴素贝叶斯算法的模型的训练和结果评价

19.6.6决策树模型的训练和结果评价

19.6.7支持向量机模型的训练和结果评价

19.7模型提升——集成分类器

19.7.1Boosting提升算法

19.7.2AdaBoost提升算法

19.7.3AdaBoost实现过程及实验结果

第20章案例： 构建苹果叶病病害分类模型

20.1细粒度图像识别概述

20.2Spark集群的使用

20.3细粒度植物数据处理

20.3.1原始数据集分析处理

20.3.2实验数据集准备

20.4使用PyTorch训练模型

20.4.1模型训练流程

20.4.2卷积神经网络模型选择

20.4.3损失函数

20.4.4训练策略

20.5模型评估

20.5.1模型效果

20.5.2模型结果分析

附录A用户历史充值情况数据表

附录B用户各类订单余额情况

附录C各省用户收到公示消息后的充值情况

参考文献