前言 党的二十大报告强调“加快发展数字经济,促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群”的重要性。随着云时代的来临,移动互联网、电子商务、物联网及社交媒体快速发展,全球数据正在以几何级速度呈爆发性增长,大数据吸引了越来越多的人关注,此时数据已经成为与物质资产和人力资本同样重要的基础生产要素。 然而,数据的价值不仅与数据的数量有关,更与数据的质量和分析有关。为了从海量的数据中提取有价值的信息,我们需要有效地收集、存储、处理和分析数据,以支持商业决策和社会发展。 本书以某招聘网站中的大数据职位招聘信息为数据源,系统地介绍了使用 Hadoop 生态系统进行大数据离线分析的方法和步骤,适合具备一定数据分析和大数据知识的读者学习。本书共6章,第1章旨在带领读者初步了解项目,包括项目需求、架构、开发流程等内容;第2章详细介绍Hadoop集群环境的搭建;第3章讲解使用Flume进行招聘信息采集的方法;第4章讲解通过MapReduce对采集的招聘信息进行数据预处理;第5章讲解如何利用Hive构建数据仓库,并对经过数据预处理的招聘信息进行分析;第6章讲解如何使用Sqoop将分析结果迁移到MySQL,并通过FineBI实现数据可视化。 在实践的过程中,读者可能会遇到各种问题,这是正常的。建议读者在遇到问题时,不要轻易放弃,而要积极思考,梳理思路,分析问题的原因和解决方案,并在问题解决后,总结经验教训,避免重复错误。 致谢 本书的编写和整理工作由传智教育完成,全体参编人员在编写过程中付出了辛勤的劳动,除此之外还有很多试读人员参与了本书的试读工作并给出了宝贵的建议,在此向大家表示由衷的感谢。 本书配套服务 为了提升您的学习或教学体验,我们精心为本书配备了丰富的数字化资源和服务,包括在线答疑、教学大纲、教学设计、教学PPT、教学视频、测试题、源代码等。通过这些配套资源和服务,我们希望让您的学习或教学变得更加高效。请扫描下方二维码获取本书配套资源和服务。意见反馈 本书难免有不妥之处,欢迎读者提出宝贵意见。读者在阅读本书时,如发现任何问题或不认同之处,可以通过电子邮箱与编者联系。请发送电子邮件至itcast_book@vip.sina.com。 传智教育黑马程序员 2025年1月于北京