目录 第1章数据清洗概述1 1.1数据清洗的背景1 1.1.1数据质量概述1 1.1.2数据质量的评价指标2 1.1.3数据质量问题的分类3 1.2数据清洗的定义5 1.3数据清洗基本流程6 1.4数据清洗策略6 1.5数据清洗常用的方法7 1.6数据清洗面临的挑战9 1.7本章小结10 1.8课后习题10 第2章初识ETL12 2.1ETL的定义12 2.2ETL的体系结构13 2.3ETL关键步骤13 2.3.1抽取14 2.3.2转换15 2.3.3加载15 2.4常见的ETL工具16 2.5本章小结17 2.6课后习题17 第3章Kettle19 3.1初识Kettle19 3.1.1Kettle简介19 3.1.2Kettle的特点20 3.2Kettle的安装与启动20 3.3Kettle的转换和作业23 3.3.1转换23 3.3.2作业25 3.4Kettle的基本操作27 3.4.1转换管理27 3.4.2作业管理39 3.4.3数据库连接50 3.5本章小结55 3.6课后习题56 目录数据清洗(第2版)第4章数据抽取57 4.1从文件中抽取数据57 4.1.1从CSV文件中抽取数据57 4.1.2从TSV文件中抽取数据61 4.1.3从JSON文件中抽取数据65 4.1.4从XML文件中抽取数据70 4.1.5从HDFS中抽取数据75 4.2从数据库中抽取数据84 4.2.1从关系数据库中抽取数据84 4.2.2从非关系数据库中抽取数据87 4.3从Hive中抽取数据93 4.4从HTML页面中抽取数据98 4.5本章小结105 4.6课后习题105 第5章数据清洗107 5.1重复值处理107 5.2缺失值处理112 5.2.1缺失值处理策略112 5.2.2删除缺失值113 5.2.3填补缺失值117 5.3异常值处理123 5.3.1删除异常值124 5.3.2替换异常值134 5.4本章小结141 5.5课后习题141 第6章数据转换142 6.1数据规范化处理142 6.1.1数据规范化处理概述142 6.1.2数据规范化处理过程144 6.2多数据源合并149 6.2.1多数据源合并方法149 6.2.2多数据源合并过程150 6.3数据粒度转换160 6.4数据的商务规则计算169 6.5本章小结176 6.6课后习题177 第7章数据加载178 7.1将数据加载到文本文件178 7.2将数据加载到数据库188 7.2.1将数据加载到关系数据库188 7.2.2将数据加载到非关系数据库196 7.3将数据加载到Hive201 7.4本章小结211 7.5课后习题212 第8章综合案例——构建电影租赁商店数据仓库213 8.1案例概述213 8.1.1案例背景介绍213 8.1.2数据库简介213 8.1.3数据仓库简介219 8.2环境准备226 8.3案例实现231 8.3.1向维度表dim_date加载数据231 8.3.2向维度表dim_time加载数据240 8.3.3向维度表dim_staff加载数据247 8.3.4向维度表dim_customer加载数据253 8.3.5向维度表dim_store加载数据264 8.3.6向维度表dim_actor加载数据268 8.3.7向维度表dim_film加载数据272 8.3.8向桥接表dim_film_actor_bridge加载数据282 8.3.9向事实表fact_rental加载数据289 8.3.10定期向数据仓库sakila_dwh加载数据301 8.4本章小结307