前言



大数据是信息化发展的新阶段,随着全球数据储量的不断提高,大数据正进入发展加速时期。近年来,随着5G、AI、云计算、区块链等新一代信息技术的蓬勃发展,大数据技术走向融合发展的关键阶段。同时,我国大数据产业保持良好发展势头,“大数据+行业”渗透融合全面展开,融合生态加速构建,新技术、新业态、新模式不断涌现,政策支持、战略引领、标准规范、产业创新的良性互动局面正在形成。
目前市面上已经有很多大数据技术相关书籍,然而大部分书籍是基于理论或基础操作讲解单个技术点,这些书籍虽然可以使初学者掌握单个技术点的基础技能,不过对于多技术点整合使用存在一定局限性,需要读者自己去摸索,并且针对技术点的实际应用方面,欠缺带领读者体验在多技术点融合的基础上实现真实项目的操作与讲解。
作为Spark实训项目的教程,最重要且最难的一件事情就是将一些复杂、难以理解的思想和问题简单化,让初学者能够轻松理解并快速掌握Spark项目的开发流程。本书对Spark项目开发过程的每个环节都进行了深入讲解,使读者由浅入深地了解每个环节的知识内容。
本书共分为7章,接下来分别对每章内容进行简单介绍,具体如下。
第1章主要介绍项目开发的基本情况,包括项目需求、项目目标、项目预备知识、项目架构设计、技术选取、开发环境、开发工具、开发流程以及硬件要求。通过本章的学习,读者能够明确项目需求,了解项目开发相关环境以及流程,后续将基于本章介绍的项目情况进行项目的开发。
第2章主要介绍大数据集群环境的搭建,包括Linux虚拟机的安装与配置、ZooKeeper、Hadoop、Spark、HBase和Kafka集群部署,并通过相关技术的基础操作实现集群环境的测试。通过本章的学习,读者可以掌握大数据集群环境搭建技能,同时对相关技术的基础操作有初步了解。
第3章主要介绍实现热门品类Top10分析,本章分为4部分,详细讲解实现热门品类Top10分析。首先对数据集进行分析,使读者明确数据结构,便于后续合理使用数据集中的数据;接着对实现思路进行分析,使读者掌握实现热门品类Top10分析的流程;然后详细讲解如何通过IntelliJ IDEA开发工具编写Spark程序,实现热门品类Top10分析;最终将Spark程序提交到大数据集群中,通过Spark on YARN的方式运行Spark程序,并使用HBase数据库存储分析结果。
第4章主要介绍实现各区域热门商品Top3分析,本章分为3部分,详细讲解实现各区域热门商品Top3分析。首先对实现思路进行分析,使读者掌握实现各区域热门商品Top3分析的流程;然后详细讲解如何通过IntelliJ IDEA开发工具编写Spark程序,实现各区域热门商品Top3分析;最终将Spark程序提交到大数据集群中,通过Spark on YARN的方式运行Spark程序,并使用HBase数据库存储分析结果。
第5章主要介绍实现网站转化率统计,本章分为4部分,详细讲解实现网站转化率统计。首先对数据集进行分析,使读者明确数据结构,便于后续合理使用数据集中的数据;接着对实现思路进行分析,使读者掌握实现网站转化率统计的流程;然后详细讲解如何通过IntelliJ IDEA开发工具编写Spark SQL程序,实现网站转化率统计;最终将Spark SQL程序提交到大数据集群中,通过Spark on YARN的方式运行Spark SQL程序,并使用HBase数据库存储分析结果。
第6章主要介绍广告点击流实时统计。首先对数据集进行分析,使读者明确数据结构,便于后续合理使用数据集中的数据;接着对实现思路进行分析,使读者掌握实现广告点击流实时统计的流程;然后详细讲解通过IntelliJ IDEA开发工具编写Kafka生产者程序生产用户广告点击流数据;最终详细讲解通过IntelliJ IDEA开发工具编写Spark Streaming程序,实现广告点击流实时统计,并使用HBase数据库存储分析结果。
第7章主要介绍数据可视化。首先对实现可视化的技术以及系统架构进行详细讲解,使读者对实现数据可视化有初步认知;接着集成Phoenix与HBase实现将HBase中的数据映射到Phoenix,通过JDBC连接Phoenix获取分析结果;然后讲解了如何创建和配置Spring Boot项目。最后,在Spring Boot项目中编写相关类、接口以及HTML页面实现热门品类Top10、各区域热门商品Top3、页面单跳转化率统计以及广告点击流实时统计的可视化。通过本章的学习,读者应掌握Phoenix的使用,以及如何通过Spring Boot项目实现数据可视化展示。
致谢
本书的编写和整理工作由江苏传智播客教育科技股份有限公司教材研发中心完成,主要参与人员有高美云、张明强、李丹等,全体人员在这近一年的编写过程中付出了许多辛勤的汗水。除此之外,还有传智播客的600多名学员参与了书稿的试读,他们站在初学者的角度对本书提出了许多宝贵的修改意见,在此一并表示衷心的感谢。
意见反馈
尽管我们尽了最大的努力,但书中难免会有不妥之处,欢迎各界专家和读者朋友来函给予宝贵意见,我们将不胜感激。您在阅读本书时,如果发现任何问题或有不认同之处可以通过电子邮件与我们取得联系。
请发送电子邮件至:itcast_book@vip.sina.com。

江苏传智播客教育科技股份有限公司教材研发中心2021年1月于北京