前言



党的二十大报告强调了“加快发展数字经济，促进数字经济和实体经济深度融合，打造具有国际竞争力的数字产业集群”的重要性。随着云计算、移动互联网、电子商务、物联网和社交媒体的蓬勃发展，全球数据正以惊人的速度呈指数级增长，大数据已成为与物质资产和人力资本同等重要的战略资源。
然而，数据的价值不仅取决于数量，更取决于质量和分析能力。要从海量数据中挖掘出真正的价值，需要构建高效的数据采集、存储、处理和分析体系，为商业决策和社会发展提供有力支撑。
本书以电商网站用户行为数据为基础，系统讲解利用Spark生态系统进行离线分析和实时分析的方法，适合具备一定数据分析知识和大数据基础的读者学习。本书共6章，具体如下。
第1章带领读者初步了解项目背景、核心需求、技术架构及开发流程。
第2章详细介绍基于Linux操作系统搭建集群环境，包括Hadoop、Hive、Flume、Kafka、Spark等。
第3章讲解通过配置Flume的采集方案实现历史和实时用户行为数据的采集。
第4章讲解基于Hive构建数据仓库。
第5章讲解运用Spark SQL、Structured Streaming等组件对用户行为数据进行离线与实时分析。
第6章讲解在FineBI中通过Doris获取Hive的数据进行数据可视化。
在实践的过程中，读者可能会遇到各种问题，这是正常的。建议读者遇到问题时不要轻易放弃，而要积极思考，梳理思路，分析问题的原因和解决方案，并在问题解决后总结经验教训，避免重复错误。
本书配套服务
为了提升您的学习或教学体验，我们精心为本书配备了丰富的数字化资源和服务，包括在线答疑、教学大纲、教学设计、教学PPT、测试题、源代码等。通过这些配套资源和服务，我们希望让您的学习或教学变得更加高效。请扫描下方二维码获取本书配套资源和服务。致谢
本书的编写和整理工作由江苏传智播客教育科技股份有限公司完成，全体参编人员在编写过程中付出了辛勤的劳动，除此之外还有很多试读人员参与了本书的试读工作，并给出了宝贵的建议，在此向大家表示由衷的感谢。
意见反馈
本书难免有不妥之处，欢迎读者提出宝贵意见。读者在阅读本书时，如发现任何问题或不认同之处，可以通过电子邮箱与编者联系。请发送电子邮件至itcast_book@vip.sina.com。

传智教育 黑马程序员
2025年1月于北京