配套资源下载 目录 基础篇 第1章大数据概论 1.1大数据概述 1.1.1大数据的定义 1.1.2大数据的特征 1.2大数据的分析过程 1.2.1大数据的采集 1.2.2大数据的存储方式 1.2.3大数据分析技术 1.2.4大数据的展示及应用 1.3大数据的价值、挑战与风险 1.3.1商业价值 1.3.2社会生活价值 1.3.3大数据的挑战与风险 1.4大数据的应用 1.5大数据的处理流程 1.6大数据成为人工智能产业的燃料 1.7大数据技术的发展前景 小结 习题 第2章大数据集群系统基础 2.1大数据集群系统概述 2.1.1集群的分类 2.1.2集群的目的 2.2Linux操作系统 2.2.1Linux操作系统简介 2.2.2Linux操作系统的特性 2.2.3Linux安装与基础操作 2.2.4Linux常用命令 2.3虚拟化技术 2.3.1虚拟化技术简介 2.3.2虚拟技术的原理 2.3.3常见的虚拟化软件 2.3.4虚拟化技术的优势和劣势 2.4CentOS大数据集群系统的组成 2.5大数据集群技术的架构 2.6操作实践: 大数据集群的部署 2.6.1集群规划 2.6.2网络配置 2.6.3安全配置 2.6.4时间同步 2.6.5SSH登录 小结 习题 第3章Hadoop分布式系统 3.1Hadoop概述 3.1.1Hadoop简介 3.1.2Hadoop的发展历程 3.1.3Hadoop原理及运行机制 3.2Hadoop相关技术及生态系统 3.3操作实践: Hadoop安装与配置 3.3.1安装JDK 3.3.2安装Hadoop 3.3.3配置Hadoop 3.3.4格式化 3.3.5运行Hadoop 小结 习题 第4章HDFS分布式文件系统 4.1HDFS 4.1.1设计前提和设计目标 4.1.2Namenode和Datanode 4.1.3文件系统的名字空间 4.1.4数据复制 4.1.5HDFS读流程 4.1.6HDFS写流程 4.2HDFS操作实践 4.2.1HDFS Shell 4.2.2HDFS Java API 4.2.3Eclipse开发环境 4.2.4综合实例 小结 习题 第5章MapReduce分布式计算 5.1MapReduce简介 5.1.1MapReduce架构 5.1.2MapReduce的原理 5.1.3MapReduce的工作机制 5.2MapReduce操作实践 5.2.1MapReduce WordCount编程实例 5.2.2MapReduce倒排索引编程实例 小结 习题 第6章HBase分布式数据库应用 6.1HBase简介 6.1.1HBase架构 6.1.2HBase的存储 6.2HBase集群部署 6.2.1HBase参数配置 6.2.2HBase运行与测试 6.3HBase Shell操作命令 6.3.1general操作 6.3.2namespace操作 6.3.3DDL操作 6.3.4DML操作 6.3.5授权 6.4HBase过滤器 6.5HBase编程 6.5.1HBase表操作编程 6.5.2HBase过滤查询编程 小结 习题 核心篇 第7章YARN资源分配 7.1统一资源管理和调度平台引例 7.1.1背景 7.1.2特点 7.1.3典型的统一资源调度平台 7.2YARN简介 7.2.1YARN架构 7.2.2YARN的工作流程 7.2.3YARN的优势 7.3操作实践: YARN Shell实例 小结 习题 第8章Spark集群计算 8.1Spark简介 8.1.1Spark生态系统 8.1.2Spark架构 8.2Spark RDD 8.2.1RDD的依赖关系 8.2.2作业调度 8.2.3内存管理 8.2.4检查点支持 8.3Spark集群部署及应用案例 8.3.1Spark参数配置 8.3.2Spark集群运行 8.3.3Spark交互 8.3.4Spark算子 8.3.5Spark算法实例1: 词频统计 8.3.6Spark算法实例2: 相关系数 小结 习题 第9章Spark机器学习 9.1机器学习概述 9.1.1机器学习的发展史 9.1.2机器学习步骤 9.2Spark MLlib概述 9.2.1数据类型 9.2.2基本统计——基于DataFrame的API 9.2.3基本统计——基于RDD的API 9.3Spark实例 9.3.1聚类问题 9.3.2随机森林 小结 习题 第10章Hive数据仓库应用 10.1Hive简介 10.1.1Hive组成模块 10.1.2Hive执行流程 10.1.3MetaStore存储模式 10.2Hive安装与配置 10.2.1Hive参数配置 10.2.2Hive运行与测试 10.2.3Hive Beeline 10.3数据类型和文件格式 10.3.1数据类型 10.3.2文件格式 10.4Hive数据定义与数据操作 10.4.1基本概念 10.4.2数据库管理 10.4.3表的管理 10.4.4外部表的管理 10.4.5分区管理 10.4.6数据操作 10.4.7桶的操作 10.4.8索引 10.5Hive数据查询 10.5.1简单查询 10.5.2复杂查询 10.5.3JOIN连接查询 10.5.4其他语句 10.6Hive编程 10.6.1JDBC函数 10.6.2完整实例 小结 习题 第11章ZooKeeper协调服务 11.1ZooKeeper简介 11.1.1ZAB协议 11.1.2ZooKeeper数据模型 11.1.3会话 11.1.4事件监听器 11.1.5访问权限 11.2ZooKeeper集群部署 11.3ZooKeeper基本命令 11.4ZooKeeper应用 11.4.1Hadoop 11.4.2Spark 11.4.3Hive 11.5ZooKeeper编程 11.5.1ZooKeeper读/写操作 11.5.2集群状态监控 小结 习题 应用篇 第12章医药大数据案例分析 12.1项目概述 12.2功能需求 12.3软件关键技术 12.4效果展示 12.5系统构架设计 12.5.1系统组成 12.5.2系统协作方式 12.5.3系统网络拓扑 12.5.4系统建设方案 12.6数据存储设计 12.7数据分析 12.8数据展示 小结 习题 参考文献