前言 我国“十四五”规划纲要已明确将大数据上升为国家战略,我们已经进入以大数据为基础的智能时代,大数据正在成为智慧农业、智能制造、智慧城市、智慧医疗等各行业数字转型的重要工具, 对数据分析相关岗位的需求愈来愈多。 无论你是处于单位中的哪个岗位,从科研数据的结果处理、到企业的专职数据分析、市场策划、销售运营、客户服务,都要求掌握数据分析。只要单位有业务决策需求,都离不开数据分析这个“工具”,数据分析是业务绩效的关键组成部分。数据分析逐步成为各个行业通吃的技能,能够洞察数据规律,做出驱动业务高效增长决策的人才必是市场上的“抢手货”,且都能有不错的收入水平。因此,未来大家都需要掌握一定的数据分析技能。 本书的编写是教育部第二批新工科研究与实践项目“涉农院校新工科人才培养实践创新平台建设探索与实践(EXTYR20200604)”的项目成果。本书的特色主要体现在以下4点。 (1) 主流技术,系统详尽。本书内容丰富,涵盖了数据分析中的主流常用库: NumPy、Pandas、Matplotlib和Seaborn等,内容系统详细,配套资源丰富,方便教学和学习。 (2) 层层递进,融会贯通。内容从Python的基础知识讲起,结合应用背景,由浅入深,力求易懂,尽量避免晦涩难懂的专业解释,帮助读者轻松入门。 (3) 示例丰富,轻松易学。结合有应用背景的例子,尽量做到知识点有应用点,透彻讲述了数据处理、分析以及可视化。 (4) 图文解析,步骤详尽。本书采用图文结合的方式,能够让读者直观、清晰地了解操作步骤和呈现效果,方便读者校对操作时的正误。 本书从基础和实践两个层面引导读者学习利用Python技术,系统、全面地讨论了Python数据分析与可视化的思想和方法。具体体现在如下内容。 第1章数据分析与可视化概述,主要介绍了数据分析与可视化的概念、数据分析与可视化基本流程、数据分析与可视化开发环境安装与包管理、Jupyter Notebook的启动与使用方法、常见的数据分析与可视化工具等内容。 第2章Python编程基础,主要介绍了Python语法基础、列表和元组、字典和集合、程序控制结构、函数、面向对象、模块与包等内容。 第3章NumPy数组计算,主要介绍了NumPy与数组对象、数组对象的数据类型、数组运算、数组元素的操作及数组的重塑和转置等内容。 第4章Pandas基础知识,主要介绍了Pandas与数据结构、Pandas索引操作、数据编辑和Pandas中调用函数的方法等内容。 第5章Pandas数据获取与清洗,主要介绍了数据获取操作、数据清洗、数据格式化、数据保存操作等内容。 第6章Pandas数据形式变化,主要介绍了数据集成与合并、数据变换、层次化索引与数据重塑、数据分组与聚合等内容。 第7章Pandas数据分析与可视化,主要介绍了数据基本统计分析、数据选取与查询、数据排序与排名、常用的数据分析、Pandas可视化方法等内容。 第8章Pandas数据处理与分析实战,主要介绍了对学生考试成绩数据进行处理分析,让读者体验从Python编程到Pandas库等做数据处理与分析知识的应用实践。 第9章Matplotlib库绘制可视化图表,主要介绍了数据可视化概述、可视化Matplotlib库的概述、Matplotlib库绘图的基本流程、使用Matplotlib库绘制常用图表等内容。 第10章图表辅助元素定制与美化,主要介绍了图表辅助元素的设置、图表样式定制、设置坐标轴的标签、刻度范围和刻度标签、标题和图例添加与网格线显示、添加参考线和参考区域、添加注释文本与表格等内容。 第11章Seaborn绘制数据分析图表,主要介绍了Seaborn与数据集加载、Seaborn图表的基本设置、常用图表的绘制等内容。 第12章时间序列数据处理与分析,主要介绍了日期和时间数据类型、时间序列的基本操作、固定频率的时间序列、时间周期及计算、重采样处理、窗口计算处理、基于四类影响要素的时间序列分析等内容。 第13章文本数据分析,主要介绍了文本数据处理与分析工具、文本预处理、文本情感分析等内容。 第14章图像处理与分析,主要介绍了OpenCV概述、cv2图像处理基础、图像的降噪处理、图像中的图形检测、图像的分割等内容。 本书的参考课时为32~48学时,可以作为高校数据科学与大数据技术、大数据管理与应用、软件工程和计算机科学与技术等专业的教材,也适合从事相关工作的人员阅读。 本书由李辉、倪健编写,在编写过程中,张标、孙鑫鑫、朱玲、金晓萍等提出了宝贵的修改意见和建议,在此表示感谢。 由于编者水平有限,加之Python语言的发展日新月异,书中难免会有疏漏和不足之处,敬请广大读者批评指正。 编者 2023年1月