前言 党的二十大报告强调了“加快发展数字经济,促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群”的重要性。随着云计算、移动互联网、电子商务、物联网和社交媒体的蓬勃发展,全球数据正以惊人的速度呈指数级增长,大数据已成为与物质资产和人力资本同等重要的战略资源。 然而,数据的价值不仅取决于数量,更取决于质量和分析能力。要从海量数据中挖掘出真正的价值,需要构建高效的数据采集、存储、处理和分析体系,为商业决策和社会发展提供有力支撑。 本书以电商网站用户行为数据为基础,系统讲解利用Spark生态系统进行离线分析和实时分析的方法,适合具备一定数据分析知识和大数据基础的读者学习。本书共6章,具体如下。 第1章带领读者初步了解项目背景、核心需求、技术架构及开发流程。 第2章详细介绍基于Linux操作系统搭建集群环境,包括Hadoop、Hive、Flume、Kafka、Spark等。 第3章讲解通过配置Flume的采集方案实现历史和实时用户行为数据的采集。 第4章讲解基于Hive构建数据仓库。 第5章讲解运用Spark SQL、Structured Streaming等组件对用户行为数据进行离线与实时分析。 第6章讲解在FineBI中通过Doris获取Hive的数据进行数据可视化。 在实践的过程中,读者可能会遇到各种问题,这是正常的。建议读者遇到问题时不要轻易放弃,而要积极思考,梳理思路,分析问题的原因和解决方案,并在问题解决后总结经验教训,避免重复错误。 本书配套服务 为了提升您的学习或教学体验,我们精心为本书配备了丰富的数字化资源和服务,包括在线答疑、教学大纲、教学设计、教学PPT、测试题、源代码等。通过这些配套资源和服务,我们希望让您的学习或教学变得更加高效。请扫描下方二维码获取本书配套资源和服务。致谢 本书的编写和整理工作由江苏传智播客教育科技股份有限公司完成,全体参编人员在编写过程中付出了辛勤的劳动,除此之外还有很多试读人员参与了本书的试读工作,并给出了宝贵的建议,在此向大家表示由衷的感谢。 意见反馈 本书难免有不妥之处,欢迎读者提出宝贵意见。读者在阅读本书时,如发现任何问题或不认同之处,可以通过电子邮箱与编者联系。请发送电子邮件至itcast_book@vip.sina.com。 传智教育 黑马程序员 2025年1月于北京