目录

第1章项目概述1
1.1项目需求和目标1
1.2预备知识2
1.3项目架构2
1.4开发环境和工具3
1.5项目开发流程4
1.6硬件要求6
1.7本章小结6
第2章搭建大数据集群环境7
2.1基础环境搭建7
2.1.1创建虚拟机7
2.1.2安装Linux操作系统16
2.1.3克隆虚拟机22
2.1.4配置虚拟机25
2.2安装JDK39
2.3部署ZooKeeper集群41
2.4部署Hadoop集群46
2.5部署Spark52
2.6部署HBase集群55
2.7部署Kafka集群59
2.8本章小结61
第3章热门品类Top10分析62
3.1数据集分析62
3.2实现思路分析63
3.3实现热门品类Top10分析64
3.3.1环境准备64
3.3.2实现Spark程序72
3.3.3数据持久化76
3.4运行Spark程序80
3.5本章小结84
第4章各区域热门商品Top3分析85
4.1实现思路分析85
4.2实现各区域热门商品Top3分析86
4.2.1实现Spark程序86
4.2.2数据持久化89
4.3运行Spark程序90
4.4本章小结92
第5章网站转化率统计93
5.1数据集分析93
5.2实现思路分析94
5.3实现网站转化率统计95
5.3.1生成用户行为数据95
5.3.2实现Spark程序96
5.3.3数据持久化102
5.4运行Spark程序103
5.5本章小结104
第6章广告点击流实时统计105
6.1数据集分析105
6.2实现思路分析105
6.3表设计106
6.4实现广告点击流实时统计107
6.4.1生成用户行为数据107
6.4.2实现Spark程序110
6.4.3数据持久化114
6.5运行Spark程序116
6.6本章小结118
第7章数据可视化119
7.1数据映射119
7.1.1部署Phoenix119
7.1.2建立映射121
7.2FineBI的安装与配置126
7.3实现数据可视化136
7.3.1新建数据集136
7.3.2实现热门品类Top10的可视化142
7.3.3实现各区域热门商品Top3的可视化147
7.3.4实现网站转化率的可视化150
7.3.5实现广告点击流实时统计的可视化155
7.4本章小结159