目〓〓录
第1篇大数据基础

第1章大数据基本概念


1.1大数据时代

1.1.1大数据有多大

1.1.2大数据的产生

1.1.3大数据的发展历程

1.1.4大数据对科学研究的影响

1.1.5大数据对思维模式的影响

1.2大数据的定义与特征

1.2.1大数据的定义

1.2.2大数据的数据特征

1.3大数据的应用

1.3.1大数据在科研领域的应用

1.3.2大数据在交通领域的应用

1.3.3大数据在通信领域的应用

1.3.4大数据在医疗领域的应用

1.3.5大数据在金融领域的应用

1.3.6大数据在制造领域的应用

1.3.7大数据在体育领域的应用

1.3.8大数据在个性化生活领域的应用

1.3.9大数据在安全领域的应用

1.4大数据框架体系

1.4.1大数据基础设施层

1.4.2大数据采集层

1.4.3大数据存储层

1.4.4大数据处理层

1.4.5大数据交互展示层

1.4.6大数据应用层


1.5大数据关键技术

1.5.1数据采集与预处理技术

1.5.2数据存储和管理技术

1.5.3数据分析与挖掘技术

1.5.4数据可视化技术

1.5.5数据安全和隐私保护技术

1.6大数据支撑技术

1.6.1云计算

1.6.2物联网

1.6.3人工智能

习题








第2章大数据平台Hadoop基础

2.1大数据平台Hadoop概述

2.1.1Hadoop简介

2.1.2Hadoop项目起源

2.1.3Hadoop发展历程

2.1.4Hadoop特性

2.1.5Hadoop主要用途

2.2大数据平台Hadoop原理

2.2.1分布式计算原理

2.2.2MapReduce原理

2.2.3Yarn原理

2.3大数据平台Hadoop组件

2.3.1HDFS组件

2.3.2MapReduce组件

2.3.3ZooKeeper组件

2.3.4Yarn组件

2.3.5HBase组件

2.3.6Hive组件

2.3.7Spark组件

2.3.8Mahout组件

2.3.9Flume组件

2.3.10Sqoop组件

2.3.11Kafka组件

2.3.12Pig组件

2.3.13Ambari组件

2.3.14Tez组件

2.3.15Common组件

习题

第2篇大数据存储与管理

第3章大数据存储与管理基本概念

3.1大数据的数据类型

3.1.1结构化数据

3.1.2半结构化数据

3.1.3非结构化数据

3.2数据管理技术的发展

3.2.1文件系统阶段

3.2.2数据库系统阶段

3.2.3数据仓库阶段

3.2.4分布式系统阶段

3.3分布式系统基础理论

3.3.1CAP理论

3.3.2BASE思想

3.4NoSQL数据库

3.4.1NoSQL数据库的兴起

3.4.2NoSQL数据库与关系数据库的比较

3.4.3NoSQL数据库的4大类型

3.5大数据存储与管理技术

3.5.1分布式存储技术

3.5.2虚拟化技术

3.5.3云存储技术

习题

第4章大数据分布式文件系统HDFS

4.1HDFS概述

4.1.1HDFS简介

4.1.2HDFS设计特点

4.2HDFS工作原理

4.2.1HDFS体系结构

4.2.2HDFS工作组件

4.3HDFS工作流程

4.3.1读数据的过程

4.3.2写数据的过程

4.4HDFS基本操作

4.4.1HDFS文件操作

4.4.2HDFS管理命令

4.5HDFS编程接口

4.5.1HDFS常用Java API

4.5.2HDFS API编程实例

习题

第5章大数据分布式数据库系统HBase

5.1HBase概述

5.1.1HBase简介

5.1.2HBase特性

5.1.3HBase与传统关系数据库对比

5.1.4HBase应用场景

5.2HBase数据模型

5.2.1HBase数据模型术语

5.2.2HBase数据逻辑模型

5.2.3HBase数据物理模型

5.3HBase工作原理

5.3.1HBase体系结构

5.3.2HBase工作组件

5.4HBase安装

5.4.1下载HBase

5.4.2安装HBase

5.4.3启动HBase

5.4.4关闭HBase

5.5HBase操作命令

5.5.1HBase表操作

5.5.2HBase数据操作

5.6HBase编程接口

5.6.1HBase常用Java API

5.6.2HBase API编程实例

习题

第6章大数据分布式数据仓库系统Hive

6.1Hive概述

6.1.1Hive特性

6.1.2Hive工作原理

6.1.3Hive执行流程

6.2Hive数据类型及数据模型

6.2.1Hive数据类型

6.2.2Hive数据模型

6.3安装Hive

6.3.1下载Hive

6.3.2安装配置Hive

6.3.3安装MySQL

6.3.4配置MySQL允许Hive接入

6.3.5启动Hive

6.3.6关闭Hive

6.4Hive SQL

6.4.1DDL语句

6.4.2DML语句

6.4.3DQL语句

6.4.4Hive操作实例

6.5Hive访问接口

6.5.1Hive CLI访问接口

6.5.2JDBC访问接口

习题

第3篇大数据采集与预处理

第7章大数据采集与预处理技术

7.1数据抽取、转换、加载技术

7.1.1ETL概述

7.1.2数据抽取

7.1.3数据转换

7.1.4数据加载

7.1.5ETL工具

7.2数据爬虫技术

7.2.1爬虫流程

7.2.2爬虫分类

7.2.3大数据爬虫技术

7.3数据预处理技术

7.3.1数据清理

7.3.2数据集成

7.3.3数据变换

7.3.4数据归约

习题

第8章大数据采集工具

8.1Sqoop关系型大数据采集系统

8.1.1Sqoop简介

8.1.2Sqoop工作原理

8.2Flume日志大数据采集系统

8.2.1Flume简介

8.2.2Flume工作原理

8.2.3Flume的配置与启动

8.3Kafka消息队列大数据采集系统

8.3.1Kafka简介

8.3.2Kafka工作原理

8.3.3Kafka的配置与启动


8.4Nutch分布式大数据爬虫系统

8.4.1Nutch简介

8.4.2Nutch工作原理

习题

第4篇大数据分析与挖掘

第9章大数据计算模式

9.1大数据批处理

9.1.1大数据批处理概述

9.1.2大数据批处理常用组件

9.2大数据查询分析计算

9.2.1大数据查询分析计算概述

9.2.2大数据查询分析计算组件

9.3大数据流计算

9.3.1大数据流计算概述

9.3.2大数据流计算组件

9.4大数据迭代计算

9.4.1大数据迭代计算概述

9.4.2迭代计算组件

9.5大数据图计算

9.5.1大数据图计算概述

9.5.2图计算组件

习题


第10章大数据MapReduce计算模型

10.1MapReduce概述

10.1.1MapReduce简介

10.1.2MapReduce由来

10.1.3MapReduce主要功能

10.1.4MapReduce技术特征

10.2MapReduce模型框架

10.2.1MapReduce设计思想

10.2.2MapReduce模型架构

10.3MapReduce数据处理过程

10.3.1MapReduce运行原理

10.3.2数据输入输出流程

10.4MapReduce程序执行过程

10.4.1作业提交

10.4.2作业初始化

10.4.3作业分配

10.4.4任务执行

10.4.5过程和状态更新

10.4.6作业完成

10.5MapReduce编程接口

10.5.1数据读入

10.5.2Mapper类和Reducer类

10.5.3数据处理

10.5.4数据输出

10.6MapReduce实例分析

10.6.1WordCount MapReduce设计

10.6.2WordCount编程实现

习题

第11章大数据Spark计算模型

11.1Spark概述

11.1.1Spark产生

11.1.2Spark的相关概念及其组件

11.1.3Spark特性

11.2Spark工作原理

11.2.1RDD原理

11.2.2Spark工作流程

11.2.3Spark集群架构及运行模式

11.2.4Spark Streaming工作原理

11.3Spark访问接口

11.3.1Spark访问接口概述

11.3.2SparkContext 访问接口

11.3.3RDD 访问接口

11.4Spark实例分析

11.4.1Spark Shell WordCount编程实现

11.4.2Scala WordCount编程实现

11.4.3Java WordCount编程实现

习题

第12章大数据Flink计算模型

12.1Flink概述

12.1.1Flink简介

12.1.2Flink的由来

12.1.3Flink流处理

12.1.4Flink的核心特性

12.2Flink工作原理

12.2.1Flink的计算框架

12.2.2Flink的体系结构

12.2.3Flink的运行架构

12.3Flink编程接口

12.3.1Flink的编程模型

12.3.2Flink的编程结构

12.4Flink实例分析

12.4.1Scala WordCount编程实现

12.4.2Java WordCount编程实现

习题

第13章大数据MapReduce基础算法

13.1关系代数运算

13.1.1关系代数运算规则

13.1.2关系代数运算的MapReduce设计与实现

13.2矩阵乘法

13.2.1矩阵乘法原理

13.2.2矩阵乘法MapReduce设计

13.2.3矩阵乘法MapReduce实现

习题

第14章大数据挖掘算法

14.1大数据关联分析算法

14.1.1Apriori算法简介

14.1.2Apriori算法MapReduce设计

14.1.3Apriori算法MapReduce实现

14.2大数据KNN分类算法

14.2.1KNN分类算法简介

14.2.2KNN算法MapReduce设计

14.2.3KNN算法MapReduce实现

14.3大数据KMeans聚类算法

14.3.1KMeans聚类算法简介

14.3.2基于MapReduce的KMeans算法的设计

14.3.3基于MapReduce的KMeans算法的实现

14.4大数据回归分析算法

14.4.1大数据回归分析算法简介

14.4.2基于MapReduce的多元回归分析算法设计

14.4.3基于MapReduce的多元回归分析算法的实现

习题


第5篇大数据平台Hadoop实践与应用案例

第15章Hadoop大数据平台实践

15.1Hadoop系统的安装与配置

15.1.1安装前的准备工作

15.1.2Linux虚拟机的安装

15.1.3安装和配置JDK

15.1.4下载安装Hadoop

15.1.5SSH免密登录

15.1.6虚拟机克隆

15.1.7Hadoop运行

15.1.8查看集群状态 

15.2Hadoop平台基本操作

15.2.1Hadoop启动与关闭命令

15.2.2Hadoop文件操作

15.2.3Hadoop程序运行命令

15.3Hadoop平台程序开发过程

15.3.1开发环境配置

15.3.2程序开发流程

习题


第16章开敞式码头系泊缆力预测应用案例

16.1开敞式码头系泊缆力预测背景描述

16.1.1开敞式码头系泊作业背景描述

16.1.2开敞式码头系泊缆力预测背景

16.2大数据系泊缆力相似性查询预测方法

16.2.1模糊相似性查询基本方法

16.2.2系泊缆力相似性查询预测模型

16.3相似性查询预测方法MapReduce设计

16.3.1相似性查询预测方法Map设计

16.3.2相似性查询预测方法Reduce设计

16.4相似性查询预测方法MapReduce实现

16.4.1系泊缆力预测结果展示

16.4.2系泊缆力预测结果分析

第17章曙光XData大数据平台及应用案例

17.1曙光XData大数据平台简介

17.1.1曙光XData大数据平台概述

17.1.2曙光XData大数据平台特点及应用

17.2曙光大数据平台架构及关键技术

17.2.1曙光XData大数据平台架构

17.2.2曙光XData大数据平台关键技术

17.3曙光XData大数据平台组件

17.3.1曙光XData大数据集成与数据治理组件

17.3.2曙光XData大数据存储与数据计算组件

17.3.3曙光XData大数据分析与数据智能组件

17.3.4曙光XData大数据可视化分析组件

17.3.5曙光XData大数据安全管控与管理运维组件

17.4曙光XData大数据平台操作实践

17.4.1曙光XData大数据平台安装与配置概述

17.4.2曙光XData大数据平台基本操作

17.5基于曙光XData大数据平台的智能交通应用案例

17.5.1曙光XData智能交通应用项目背景

17.5.2曙光XData智能交通应用方案设计

17.5.3曙光XData智能交通功能实现及应用效果

参考文献