前言





编写目的
随着云计算、大数据、物联网、人工智能等信息技术的迅猛发展,大数据在电子商务、媒体营销、旅游、物流交通、农业、工业、企业服务、娱乐、汽车、物联网、生命科技、金融科技、房产、教育及政府等诸多行业得到了广泛的应用,大数据的相关课程也逐渐成为各个高等学校数据科学与大数据技术等专业的核心课程以及计算机相关硕士专业的必修课程。
平台支撑
大数据分布式系统的学习开发需要有实验平台,而一般大数据的实验平台的建设需要较多经费支持,同时一些基于这些平台的学习、训练也不是很方便。本书基于普通的PC,充分利用Linux操作系统、VMware 虚拟软件的特点,通过虚拟多台计算机组建分布式计算机系统,搭建Hadoop 大数据分析平台,非常适合读者从底层学懂弄通大数据的搭建过程,以及分布式文件系统、分布式计算框架、分布式数据库、Spark内存计算、分布式机器学习及大数据的分析系统的开发和应用。
本书内容
本书共分12章,分为基础篇、核心篇和应用篇。
基础篇包括第1~6章。第1章大数据概论,涉及的内容有大数据定义,大数据分析过程、技术与工具,以及大数据的应用; 第2章大数据集群系统基础,讲解Linux操作系统、虚拟化技术和大数据集群的搭建; 第3章Hadoop分布式系统,讲解Hadoop的原理和运行机制,以及Hadoop系统的配置与安装; 第4章HDFS分布式文件系统,主要讲解大数据文件系统的读写过程和HDFS的操作; 第5章MapReduce分布式计算,讲解MapReduce的架构、原理与机制,以及MapReduce应用案例; 第6章HBase分布式数据库应用,主要讲解HBase的架构、部署和应用。
核心篇包括第7~11章。第7章YARN资源分配,讲解YARN架构、流程及操作应用; 第8章Spark集群计算,主要讲解Spark架构、RDD、部署和应用; 第9章Spark机器学习,讲解机器学习库和相关应用; 第10章Hive数据仓库应用,讲解Hive的组成、安装、配置和应用; 第11章ZooKeeper协调服务,讲解分布式应用程序的定义、部署、命令和应用。
应用篇包括第12章。第12章医药大数据案例分析,主要内容包括大数据系统的需求分析、架构设计、关键技术、存储设计、数据分析与数据展示。

本书特点
本书的作者团队具有多年大数据教材的编写经验,同时具有丰富的高校教学和大数据的培训经验,也具有实际的大数据项目开发经验。作者团队在“云计算大数据与智能制造论坛”,国家级、省级职业教育培训,研究生课程教学,以及本科生课程教学等方面进行了多次大数据技术的教学实践,本书也是这些系列教学的成果之一。
本书的主要特点如下。
1. 组织结构高效合理
作为大数据技术方面的教材,其内容全面、逐步递进,完整地呈现了一个大数据分析系统所涉及的各类技术。
2. 适合“线上线下”混合式教学模式
本书的每章首先描述的是基本原理,然后是操作实践,最后是课后作业,方便教师在原理部分讲授时利用一些公共的教学平台,把教学资源在讲课之前发送给学生,课堂讲授时突出重点、难点及实现部分,课后布置作业。
3. 基于项目的案例教学
为方便读者对大数据的相关系统进行开发学习,第12章通过项目概述、功能需求分析、软件关键技术、效果展示、系统架构设计、数据存储设计、数据分析及数据展示来呈现一个实际的大数据分析系统,让读者真正实现边学习、边训练、边实践。
读者对象
本书可以作为高等院校数据科学与大数据技术相关课程本科生教材,也可以作为大数据技术基础相关课程研究生教材,还可以作为从事大数据相关工作的工程技术人员的参考用书。
资源下载
本书提供教学大纲、教学课件、电子教案、习题答案、全部实例的源代码和教学进度表,扫描封底的课件二维码可以下载。本书还提供600分钟的视频讲解,扫描书中相应位置的二维码可以在线观看、学习。
致谢
本书由肖政宏、李俊杰、谢志明编写,编写过程中得到广东技术师范大学、汕尾职业技术学院、汕尾市创新工业设计研究院、 广州市乐商软件科技有限公司、广州五舟科技股份有限公司、北京普开数据技术有限公司的大力协助,感谢梅阳阳、闫艺婷、吴进、周健烨、黄镇生、曾静、徐胜东等的全力支持。
编者关于大数据分析技术的研究及本书写作还得到了广东省省级科技计划项目——基于医药电商大数据的服务系统研发(No: 2016A010101029)、广州市科技计划项目——大数据分析平台的关键技术研究及应用示范(No: 201607010152)的资助,在此表示感谢。
大数据技术发展很快,涉及的内容也较多,加上编者的水平有限,在内容的安排、表述方面难免有不当之处,希望广大读者在阅读本书的过程中能够批评指正。
编者
2020年1月