前言 数据分析与数据挖掘是综合性非常强的学科领域,从事相关工作的人员既要掌握线性代数、统计学、机器学习等理论知识,又要熟悉编程语言及相关软件的使用。在众多的编程语言中,Python语言非常适合数据分析和数据挖掘,其具有简洁的语法、强大的功能、丰富的扩展库以及开源免费、易学易用等特点,因此成为众多领域不可替代的编程语言。本书从Python语言的基础技术入手,以实际数据分析与挖掘项目为主线,重点讲解Python语言在数据获取、数据分析与挖掘中的应用。 本书是一本既有理论性又具有实践性的数据分析与挖掘教材,具有以下特色。 (1) 采用层进式思路组织课程内容。以项目案例为载体,采用“提出问题—分析问题—解决问题”的思路,逐步引导读者使用编程语言解决实际问题。 (2) 以综合项目贯穿课程实践。本书设置一个综合实战项目“房屋租金数据的获取、分析与挖掘”贯穿教学内容,每学习完一章,即可综合运用本章知识点解决或改进本项目的某些功能,循序渐进,逐步实现数据的获取、处理、分析、可视化及知识的挖掘,提高分析问题、解决问题的能力。 (3) 教学与科研有机融合。书中部分案例来自国家自然科学基金项目(11903008),同时也是山东省本科高校教学改革研究项目面上项目(M2021156)的成果。教学与科研的结合有助于培养读者的创新能力和计算思维。 (4) 理论知识讲解细致。本书增加了相关理论内容,讲解数据挖掘和深度学习的基础理论,以帮助读者理解数据挖掘和深度学习案例的算法原理。 (5)融入思政元素。本书深度挖掘思政素材,将课程思政有机融入课程教学中。通过数据分析案例理解“差之毫厘,谬以千里”,培养读者严谨细致、精益求精的工匠精神。 (6)校际合作、校企合作。本书的编者团队由德州学院、枣庄学院、青软创新科技集团股份有限公司的一线优秀教师和实践技能熟练的工程师组成,保证本书案例来自于真实的项目,具有一定的实用性和可操作性。 全书共分9章,章节安排以综合实战项目的实现为主线展开。首先介绍Python语言概述和编程基础,其次介绍Python爬虫技术,以及三个重要的扩展库: 科学计算库(Numpy)、数据分析处理库(Pandas)和数据展示库(Matplotlib),然后介绍数据挖掘基础知识以及使用Scikitlearn库进行数据挖掘实战,最后介绍深度学习的理论知识以及深度学习在星系图像分类中的应用案例。内容讲解由浅入深,层次清晰,通俗易懂。 本书提供了配套教学大纲、教学日历、电子教案、教学课件、程序源码、教学视频及课后习题的参考答案,读者可以登录清华大学出版社官方网站下载使用。 本书由王丽丽、戎丽霞担任主编,于学斗、郑文艳、蒋勇、裴霞担任副主编,参与编写的还有扈钰、赵丽丽,硕士研究生王海超、孟荣伟参与了本书的校对工作。本书在出版过程中得到了清华大学出版社张玥编辑的大力支持,在此表示诚挚的感谢。 由于编者水平有限,书中难免会有不足之处,欢迎专家和读者朋友给予批评和指正。 编者2023年1月