前言 党的二十大报告提出“加快发展数字经济,促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群”。随着云时代的来临,移动互联网、电子商务、物联网以及社交媒体的快速发展,全球的数据正在以几何级速度爆发式增长,大数据也吸引了越来越多的人关注,此时数据已经成为与物质资产和人力资本同样重要的基础生产要素。 然而,数据的价值取决于其质量,而非数量。数据采集的不确定性、数据来源的多样性和复杂性经常会导致数据中存在缺失值、重复值、异常值等问题。如果直接使用这些数据,会严重影响数据决策的准确性。因此,在数据分析和应用的过程中,对数据进行有效的清洗成为关键环节。 本书基于ETL工具Kettle,循序渐进地介绍了ETL的相关知识,适合有一定数据治理和大数据基础的爱好者阅读。本书共8章内容,其中,第1、2章主要带领大家了解数据清洗和ETL的概念;第3章介绍ETL工具Kettle的基本概念和使用;第4章主要讲解如何使用Kettle从不同数据源抽取数据;第5章主要讲解如何使用Kettle进行数据清洗,包括重复值处理、缺失值处理和异常值处理;第6章主要讲解如何使用Kettle进行数据转换,包括数据规范化处理、数据粒度转换、数据的商务规则计算等;第7章主要讲解如何使用Kettle将数据加载到不同的目标系统;第8章综合运用前面所学的知识,构建一个电影租赁商店数据仓库,以使读者加深对Kettle和ETL的理解与掌握。 在学习过程中,如果读者在理解知识点的过程中遇到困难,建议不要纠结于某个地方,可以先往后学习。通常来讲,通过逐渐深入的学习,前面不懂和疑惑的知识点也就能够理解了。在实现ETL的过程中,一定要多动手实践,如果在实践的过程中遇到问题,建议多思考,理清思路,认真分析问题发生的原因,并在问题解决后总结出经验。 本书的编写和整理工作由江苏传智播客教育科技股份有限公司完成,主要参与人员有张明强、赵孟等,全体参编人员在编写过程中付出了许多辛勤的汗水,在此一并表示衷心的感谢。 尽管作者尽了最大的努力,但书中难免会有不妥之处,欢迎各界专家和读者朋友提出宝贵意见,如果发现任何问题或不认同之处,可以通过电子邮件与作者取得联系。请发送电子邮件至itcast_book@vip.sina.com。 黑马程序员 2024年6月于北京