江苏传智播客教育科技股份有限公司(简称“传智播客”)是一家致力于培养高素质软件开发人才的科技公司。经过多年探索,传智播客的战略逐步完善,从IT教育培训发展到高等教育,从根本上解决以“人”为单位的系统教育培训问题,实现新的系统教育形态,构建出前后衔接、相互呼应的分层次教育培训模式。 一、 “黑马程序员”——高端IT教育品牌 “黑马程序员”的学员多为大学毕业后,想从事IT行业,但各方面条件还不成熟的年轻人。“黑马程序员”的学员筛选制度非常严格,包括了严格的技术测试、自学能力测试,以及性格测试、压力测试、品德测试等。百里挑一的残酷筛选制度确保学员质量,并降低企业的用人风险。 自“黑马程序员”成立以来,教学研发团队一直致力于打造精品课程资源,不断在产、学、研3个层面创新自己的执教理念与教学方针,并集中“黑马程序员”的优势力量,有针对性地出版了计算机系列教材90多种,制作教学视频数十套,发表各类技术文章数百篇。 “黑马程序员”不仅斥资研发IT系列教材,还为高校师生提供以下配套学习资源与服务。 1. 为大学生提供的配套服务 (1) 请同学们登录http://yx.ityxb.com,进入“高校学习平台”,免费获取海量学习资源。平台可以帮助高“播妞学姐”微信公众号 校学生解决各类学习问题。 (2) 针对高校学生在学习过程中存在的压力大等问题,我们还面向大学生量身打造了IT技术女神——“播妞学姐”,可提供教材配套源码、习题答案及更多学习资源。同学们快来关注“播妞学姐”的微信公众号boniu1024。 2. 为教师提供的配套服务 针对高校教学,“黑马程序员”为IT系列教材精心设计了“教案+授课资源+考试系统+题库+教学辅助案例”的系列教学资源。高校老师请登录http://yx.ityxb.com,进入“高校教辅平台”,也可关注“码大牛”老师微信/QQ: 2011168841,获取配套资源,还可以扫描下方二维码,关注专为IT教师打造的师资服务平台——“教学好助手”,获取最新的教学辅助资源。 “教学好助手”微信公众号 二、 “传智专修学院”——高等教育机构 传智专修学院是一所由江苏省宿迁市教育局批准、江苏传智播客教育科技股份有限公司投资创办的四年制应用型院校。学校致力于为互联网、智能制造等新兴行业培养高精尖科技人才,聚焦人工智能、大数据、机器人、物联网等前沿技术,开设软件工程专业,招收的学生入校后将接受系统化培养,毕业时学生的专业水平和技术能力可满足大型互联网企业的用人要求。 传智专修学院借鉴卡内基·梅隆大学、斯坦福大学等世界著名大学的办学模式,采用“申请入学,自主选拔”的招生方式,通过深入调研企业需求,以校企合作、专业共建等方式构建专业的课程体系。传智专修学院拥有顶级的教研团队、完善的班级管理体系、匠人精神的现代学徒制和敢为人先的质保服务。 传智专修学院突出的办学特色如下。 (1) 立足“高精尖”人才培养。传智专修学院以国家重大战略和国际科学技术前沿为导向,致力于为社会培养具有创新精神和实践能力的应用型人才。 (2) 项目式教学,培养学生自主学习能力。传智专修学院打破传统高校理论式教学模式,将项目实战式教学模式融入课堂,通过分组实战,模拟企业项目开发过程,让学生拥有真实的工作能力,并持续培养学生的自主学习能力。 (3) 创新模式,就业无忧。学校为学生提供“一年工作式学习”,学生能够进入企业边工作边学习。与此同时,我们还提供专业老师指导学生参加企业面试,并且开设了技术服务窗口给学生解答工作中遇到的各种问题,帮助学生顺利就业。 如果想了解传智专修学院更多的精彩内容,请关注微信公众号“传智专修学院”。 传智专修学院 传智播客 2020年2月数据清洗 近年来,大数据技术掀起了计算机领域的一个新浪潮,无论是数据挖掘、数据分析、数据可视化,还是机器学习、人工智能,它们都绕不开“数据”这个主题。从统计学家到软件开发人员,再到图形设计师,越来越多的人对数据科学产生了兴趣,廉价的硬件、可靠的数据处理工具和数据可视化工具以及海量的数据,这些资源使我们能够轻松地、精确地发现趋势、预测未来。 由于海量数据的来源是广泛的,数据类型也是多而繁杂的,因此数据中会夹杂着不完整的、重复的以及错误的数据,如果直接使用这些原始数据,会严重影响数据决策的效率。因此,对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。 本书共分为8章,各章内容介绍如下: 第1章主要是带领大家简单认识数据清洗的背景、定义、原理、基本流程、清洗策略以及常见的数据清洗方法。通过本章的学习,读者可以对数据清洗有基本的认识,便于后续章节的学习。 第2章主要讲解ETL技术相关的知识,即基于ETL的数据清洗(ETL的概念、体系结构)、ETL关键技术(抽取数据的技术、数据清洗转换的技术以及数据加载的技术)和ETL常见工具。通过本章的学习,读者可以认识ETL,并熟悉ETL的关键技术和ETL常见的工具。 第3章主要讲解数据清洗工具Kettle的相关知识,即Kettle的概述、设计原则、下载安装以及基本概念和基本功能。通过本章的学习,读者可以使用Kettle工具对ETL数据进行相关处理(抽取、清洗转换以及加载)。 第4章主要讲解数据清洗的第一步——数据抽取,即抽取文本数据、Web数据以及数据库数据的相关知识。通过本章的学习,读者可以掌握抽取各种形式的数据并保存至数据库中,便于后续对数据进行相关清洗转换和分析。 第5章主要讲解数据的清洗与检验相关的知识,即数据去重、缺失值处理、异常值处理以及数据检验知识。通过本章的学习,读者可以掌握对重复数据、缺失值数据、异常值数据的处理,也可以掌握对数据进行检验的操作。 第6章主要讲解数据转换相关的知识,即多数据源合并、不一致数据转换、数据粒度的转换、数据的商务规则计算的知识。通过本章的学习,读者可以掌握数据转换操作,实现将企业中的数据进行规范化处理。 第7章主要讲解数据加载相关的知识,即数据的加载机制(全量加载和增量加载)和批量加载的知识。通过本章的学习,读者可以掌握数据的全量加载、增量加载以及批量加载的操作,实现将清洗检验、转换后的高质量企业数据加载到目标数据库中,便于后续进行数据分析和数据挖掘。 第8章利用前面章节所学的知识构建一个DVD租赁商店数据仓库,目的是实现定期从源数据库sakila中抽取增量数据,转换成符合DVD租赁业务的数据,最后加载到DVD租赁商店数据仓库中,便于后续在线DVD租赁商店的决策者对数据进行分析得出商业决策。通过本章的学习,读者可以掌握数据仓库的构建操作以及对数据库中的数据进行相关清洗转换操作。 致谢 本书的编写和整理工作由传智播客教育科技股份有限公司完成,主要参与人员有高美云、文燕、张明强等,全体参编人员在编写过程中付出了许多辛勤的汗水。除此之外,传智播客等600多名学员也参与了本书的试读工作,他们站在初学者的角度对本书提供了许多宝贵的意见,在此一并表示衷心的感谢。 意见反馈 尽管我们尽了最大的努力,但书中难免会有不妥之处,欢迎各界专家和读者朋友提出宝贵意见。您在阅读本书时,如果发现任何问题或有不认同之处,可以通过电子邮件与我们取得联系。请发送电子邮件至: itcast_book@vip.sina.com。 黑马程序员 20190923于北京