前言 党的二十大报告强调了“加快发展数字经济,促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群”的重要性。随着云时代的来临,移动互联网、电子商务、物联网以及社交媒体快速发展,全球的数据正在以几何级速度呈爆发性增长,大数据吸引了越来越多人的关注,现在数据已经成为与物质资产和人力资本同样重要的基础生产要素。然而,数据的价值不仅与数据的数量有关,更与数据的质量和分析有关。为了从海量的数据中提取有价值的信息,我们需要有效地收集、存储、处理和分析数据,以支持商业决策和社会发展。 本书基于第1版进行改版, 优化原书内容,并进行以下调整。  将项目实现语言更换为Scala,更好地发挥Spark的优势;  调整了部分需求的实现方式,增强了教学的实用性;  调整了知识讲解的结构,更符合循序渐进的学习思路;  添加素质教育的内容,将素质教育的内容与专业知识有机结合。 本书以电商网站中的用户行为数据作为数据源,系统地介绍了如何使用 Spark生态系统进行大数据离线分析和实时分析的方法,适合具备一定数据分析和大数据知识的读者学习。全书共7章内容,具体如下。  第1章旨在带领读者初步了解项目,包括项目需求、架构、开发流程等;  第2章详细介绍大数据集群环境的搭建;  第3章讲解使用Spark Core进行热门品类Top10分析的方法;  第4章讲解使用Spark Core进行各区域热门商品Top3分析的方法;  第5章讲解使用Spark SQL进行网站转化率统计的方法;  第6章讲解使用Structured Streaming进行广告点击流实时统计的方法;  第7章讲解如何将存储在HBase中的分析结果映射到Phoenix的表中,并通过FineBI实现数据可视化。 在实践过程中,读者可能会遇到各种问题,这是正常的。建议读者在遇到问题时,不要轻易放弃,而要积极思考,梳理思路,分析问题的原因和解决方案,并在问题解决后,总结经验教训,避免重复错误。 本书配套服务 为了提升您的学习或教学体验,我们精心为本书配备了丰富的数字化资源和服务,包括在线答疑、教学大纲、教学设计、教学PPT、教学视频、测试题、源代码等。通过这些配套资源和服务,我们希望让您的学习或教学变得更加高效。请扫描下方二维码获取本书配套资源和服务。 致谢 本书的编写和整理工作由传智教育完成,全体参编人员在编写过程中付出了辛勤的劳动,除此之外还有很多试读人员参与了本书的试读工作并给出了宝贵的建议,在此一并表示由衷的感谢。意见反馈 本书难免有不妥之处,欢迎读者提出宝贵意见。读者在阅读本书时,如发现任何问题或不认同之处,可以通过电子邮箱与编者联系。请发送电子邮件至itcast_book@vip.sina.com。 传智教育黑马程序员 2025年1月于北京