前言



党的二十大报告提出“加快发展数字经济，促进数字经济和实体经济深度融合，打造具有国际竞争力的数字产业集群”。随着云时代的来临，移动互联网、电子商务、物联网以及社交媒体快速发展，全球的数据正在呈几何速度爆发性地增长。为了健全网络综合治理体系，推动形成良好的网络生态，统筹网络信息体系的建设和运用，大数据吸引了越来越多的人关注。此时，数据已成为与物质资产和人力资本同样重要的基础生产要素，如何对这些海量的数据进行存储、分析和处理成为热门的研究课题。基于这种需求，众多分布式系统应运而生。
Hadoop提供了分布式存储系统和分布式计算框架，有效解决了海量数据的存储和分析处理问题，因此基于Hadoop的各种大数据技术得到了广泛应用和普及。自2006年问世以来，Hadoop作为大数据技术的核心和事实标准，在国内外各个企业中得到了广泛应用，对于要向大数据方向发展的读者而言，学习Hadoop是一个不错的选择。
本书基于Hadoop 3.x，循序渐进地介绍Hadoop的相关知识以及Hadoop生态体系中常用的开源大数据项目。本书共11章，其中，第1章主要带领读者了解大数据和Hadoop的基本理论知识；第2章主要演示如何在VMware Workstation安装操作系统为CentOS Stream 9的虚拟机，分别基于伪分布式模式和完全分布式模式部署Hadoop，并通过一个简单的案例介绍Hadoop的使用；第3~4章主要讲解Hadoop的3个核心组件HDFS、MapReduce和YARN的原理，并利用这3个核心组件实现分布式存储和分布式计算；第5~10章主要讲解Hadoop生态体系中常用的开源大数据项目的原理和使用，并利用ZooKeeper实现基于高可用模式的Hadoop集群；第11章通过一个完整的实战项目，让读者能够灵活地运用Hadoop及其生态体系的开源大数据项目，从而具备开发简单项目的能力。
在学习过程中，如果读者在理解知识点的过程中遇到困难，建议不要纠结于某个地方，可以先往后学习。通常来讲，通过逐渐深入的学习，前面不懂和疑惑的知识点慢慢就能够理解了。在学习编程和部署环境的过程中，一定要多动手实践，如果在实践过程中遇到问题，建议多思考，厘清思路，认真分析问题发生的原因，并在问题解决后总结经验。
致谢
本书的编写和整理工作由传智教育完成，主要参编人员有张明强、赵孟、李丹等，全体参编人员在编写过程中付出了许多辛勤的汗水。除此之外，传智播客百名学员也参与了本书的试读工作，他们站在初学者的角度给本书提供了许多宝贵的建议，在此一并表示衷心的感谢。意见反馈
尽管我们尽了最大的努力，但书中难免会有不妥之处，欢迎各界专家和读者朋友提出宝贵意见。阅读本书时，如果发现任何问题或有不认同之处，您可以通过电子邮件与我们取得联系。请发送电子邮件至：itcast_book@vip.sina.com。

黑马程序员2023年6月于北京 前言