前言



党的二十大报告提出“加快发展数字经济,促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群”。随着云时代的来临,移动互联网、电子商务、物联网以及社交媒体快速发展,全球的数据正在呈几何速度爆发性地增长。为了健全网络综合治理体系,推动形成良好的网络生态,统筹网络信息体系的建设和运用,大数据吸引了越来越多的人关注。此时,数据已成为与物质资产和人力资本同样重要的基础生产要素,如何对这些海量的数据进行存储、分析和处理成为热门的研究课题。基于这种需求,众多分布式系统应运而生。
Hadoop提供了分布式存储系统和分布式计算框架,有效解决了海量数据的存储和分析处理问题,因此基于Hadoop的各种大数据技术得到了广泛应用和普及。自2006年问世以来,Hadoop作为大数据技术的核心和事实标准,在国内外各个企业中得到了广泛应用,对于要向大数据方向发展的读者而言,学习Hadoop是一个不错的选择。
本书基于Hadoop 3.x,循序渐进地介绍Hadoop的相关知识以及Hadoop生态体系中常用的开源大数据项目。本书共11章,其中,第1章主要带领读者了解大数据和Hadoop的基本理论知识;第2章主要演示如何在VMware Workstation安装操作系统为CentOS Stream 9的虚拟机,分别基于伪分布式模式和完全分布式模式部署Hadoop,并通过一个简单的案例介绍Hadoop的使用;第3~4章主要讲解Hadoop的3个核心组件HDFS、MapReduce和YARN的原理,并利用这3个核心组件实现分布式存储和分布式计算;第5~10章主要讲解Hadoop生态体系中常用的开源大数据项目的原理和使用,并利用ZooKeeper实现基于高可用模式的Hadoop集群;第11章通过一个完整的实战项目,让读者能够灵活地运用Hadoop及其生态体系的开源大数据项目,从而具备开发简单项目的能力。
在学习过程中,如果读者在理解知识点的过程中遇到困难,建议不要纠结于某个地方,可以先往后学习。通常来讲,通过逐渐深入的学习,前面不懂和疑惑的知识点慢慢就能够理解了。在学习编程和部署环境的过程中,一定要多动手实践,如果在实践过程中遇到问题,建议多思考,厘清思路,认真分析问题发生的原因,并在问题解决后总结经验。
致谢
本书的编写和整理工作由传智教育完成,主要参编人员有张明强、赵孟、李丹等,全体参编人员在编写过程中付出了许多辛勤的汗水。除此之外,传智播客百名学员也参与了本书的试读工作,他们站在初学者的角度给本书提供了许多宝贵的建议,在此一并表示衷心的感谢。意见反馈
尽管我们尽了最大的努力,但书中难免会有不妥之处,欢迎各界专家和读者朋友提出宝贵意见。阅读本书时,如果发现任何问题或有不认同之处,您可以通过电子邮件与我们取得联系。请发送电子邮件至:itcast_book@vip.sina.com。

黑马程序员2023年6月于北京 前言