江苏传智播客教育科技股份有限公司(简称“传智播客”)是一家致力于培养高素质软件开发人才的科技公司。经过多年探索,传智播客的战略逐步完善,从IT教育培训发展到高等教育,从根本上解决以“人”为单位的系统教育培训问题,实现新的系统教育形态,构建出前后衔接、相互呼应的分层次教育培训模式。
一、 “黑马程序员”——高端IT教育品牌
“黑马程序员”的学员多为大学毕业后,想从事IT行业,但各方面条件还不成熟的年轻人。“黑马程序员”的学员筛选制度非常严格,包括了严格的技术测试、自学能力测试,以及性格测试、压力测试、品德测试等。百里挑一的残酷筛选制度确保学员质量,并降低企业的用人风险。
自“黑马程序员”成立以来,教学研发团队一直致力于打造精品课程资源,不断在产、学、研3个层面创新自己的执教理念与教学方针,并集中“黑马程序员”的优势力量,有针对性地出版了计算机系列教材90多种,制作教学视频数十套,发表各类技术文章数百篇。
“黑马程序员”不仅斥资研发IT系列教材,还为高校师生提供以下配套学习资源与服务。
1. 为大学生提供的配套服务
(1) 请同学们登录http://yx.ityxb.com,进入“高校学习平台”,免费获取海量学习资源。平台可以帮助高“播妞学姐”微信公众号
校学生解决各类学习问题。
(2)  针对高校学生在学习过程中存在的压力大等问题,我们还面向大学生量身打造了IT技术女神——“播妞学姐”,可提供教材配套源码、习题答案及更多学习资源。同学们快来关注“播妞学姐”的微信公众号boniu1024。
2. 为教师提供的配套服务
针对高校教学,“黑马程序员”为IT系列教材精心设计了“教案+授课资源+考试系统+题库+教学辅助案例”的系列教学资源。高校老师请登录http://yx.ityxb.com,进入“高校教辅平台”,也可关注“码大牛”老师微信/QQ: 2011168841,获取配套资源,还可以扫描下方二维码,关注专为IT教师打造的师资服务平台——“教学好助手”,获取最新的教学辅助资源。
 “教学好助手”微信公众号
二、 “传智专修学院”——高等教育机构
传智专修学院是一所由江苏省宿迁市教育局批准、江苏传智播客教育科技股份有限公司投资创办的四年制应用型院校。学校致力于为互联网、智能制造等新兴行业培养高精尖科技人才,聚焦人工智能、大数据、机器人、物联网等前沿技术,开设软件工程专业,招收的学生入校后将接受系统化培养,毕业时学生的专业水平和技术能力可满足大型互联网企业的用人要求。
传智专修学院借鉴卡内基·梅隆大学、斯坦福大学等世界著名大学的办学模式,采用“申请入学,自主选拔”的招生方式,通过深入调研企业需求,以校企合作、专业共建等方式构建专业的课程体系。传智专修学院拥有顶级的教研团队、完善的班级管理体系、匠人精神的现代学徒制和敢为人先的质保服务。
传智专修学院突出的办学特色如下。
(1)立足“高精尖”人才培养。传智专修学院以国家重大战略和国际科学技术前沿为导向,致力于为社会培养具有创新精神和实践能力的应用型人才。
(2)项目式教学,培养学生自主学习能力。传智专修学院打破传统高校理论式教学模式,将项目实战式教学模式融入课堂,通过分组实战,模拟企业项目开发过程,让学生拥有真实的工作能力,并持续培养学生的自主学习能力。
(3)创新模式,就业无忧。学校为学生提供“1年工作式学习”,学生能够进入企业边工作边学习。与此同时,我们还提供专业老师指导学生参加企业面试,并且开设了技术服务窗口给学生解答工作中遇到的各种问题,帮助学生顺利就业。
如果想了解传智专修学院更多的精彩内容,请关注微信公众号“传智专修学院”。
 传智专修学院
传智播客2020年2月大数据项目实战
为什么要学习本书
招聘网站分析系统是基于大数据离线处理技术完成的。大数据离线处理具有以下几个特点: 数据量巨大且保存时间长;在大量数据上进行复杂的批量运算;数据在计算之前已为最终数据,不会发生变化;方便查询批量计算的结果;相比较于在线数据处理,离线处理相对较为成熟,通常是利用HDFS存储数据,MapReduce做批量计算,将计算完成的数据存储在Hive数据仓库中。对于想从事大数据行业的开发人员来说,学好大数据离线处理流程尤为重要。
本书通过Hadoop生态系统完成大数据离线处理,从系统的开发流程角度展开内容,在流程中的每个环节通过对理论知识和实际代码的讲解,使难以理解的原理变得通俗易懂,有利于读者充分地掌握大数据离线处理相关流程。
关于本书
作为大数据实训项目的教程,最重要且最难的一件事情就是将一些复杂、难以理解的思想和问题简单化,让初学者能够轻松理解并快速掌握大数据项目的开发流程。本教材对大数据项目开发过程的每个环节都进行了深入讲解,使读者由浅入深地了解每个环节的知识内容。
本书共分为6章,各章内容如下。
第1章主要介绍项目开发的基本情况,包括项目需求、项目目标、项目预备知识、项目架构设计、技术选取、开发环境、开发工具以及开发流程。通过本章的学习,读者能够明确项目需求、了解项目开发相关环境以及流程。后续将基于本章介绍的项目情况进行项目的开发。
第2章主要讲解大数据集群环境的搭建,包括Hadoop、Hive、Sqoop、MySQL和Linux虚拟机及安装,并通过相关技术的基础操作实现集群环境的测试。通过本章学习,读者可掌握独立搭建大数据集群环境的技能,同时对相关技术的基础操作有初步了解。
第3章主要介绍数据采集,将本章分为三部分内容,详细讲解网页数据采集。首先需要读者了解网页数据采集相关知识内容。接下来讲解编写网页数据采集程序的流程,包括分析网页数据结构、准备环境等内容。最终,通过Java编程语言完成网页数据采集程序,并将采集的数据存储到HDFS上。
第4章主要讲解数据预处理,通过分析预处理数据和设计数据预处理方案实现数据预处理程序。本章的学习内容主要包括实现数据预处理程序的流程和MapReduce程序的运行与编写。通过本章的学习,读者可以掌握利用MapReduce分布式处理框架进行数据预处理的技巧,熟悉数据预处理的流程。
第5章主要讲解通过Hive做数据分析的相关知识。首先介绍数据分析和Hive作为数据仓库的特点。然后介绍数据仓库的实现流程,从数据仓库的设计到使用HQL实现数据仓库。最后通过HQL对数据进行分析。通过本章学习,读者将掌握HQL创建数据仓库和数据分析的相关操作。
第6章主要讲解数据可视化,使用SSM框架(Spring、Spring MVC和MyBatis)、JQuery和ECharts图表库等网页开发技术对数据分析结果进行可视化展示。通过本章学习,读者将掌握开发网页应用的总体流程,在网页中以图表形式对分析结果进行可视化呈现。

致谢
本教材的编写和整理工作由传智播客教育科技股份有限公司教材研发中心完成,主要参与人员有高美云、文燕、张明强等,全体参编人员在近一年的编写过程中付出了许多辛勤的汗水。除此之外,还有传智播客的六百多名学员也参与到了教材的试读工作中,他们站在初学者的角度对教材提供了许多宝贵的修改意见,在此一并表示衷心的感谢。

意见反馈
尽管我们尽了最大的努力,但书中难免会有不妥之处,欢迎各界专家和读者朋友们来信给予宝贵意见,我们将不胜感激。读者在阅读本书时,如果发现任何问题或有不认同之处,可以通过电子邮件与我们取得联系。请发送电子邮件至: itcast_book@vip.sina.com。

     						黑马程序员2020年1月于北京