前言 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息形成结论,从而对数据加以详细研究和概括总结的过程。 在实际应用中,数据分析可帮助人们作出判断,以便采取适当行动。数据分析是有目的地收集数据、分析数据,使之成为信息的过程。 数据分析有极广泛的应用范围,典型的数据分析可能包含以下三步: (1) 探索性数据分析,当数据刚取得时,可能杂乱无章,看不出规律,通过作图、造表、用各种形式的方程拟合、计算某些特征量等手段探索规律性的可能形式。 (2) 模型选定分析,在探索性分析的基础上提出一类或几类可能的模型,然后通过进一步的分析从中挑选一定的模型。 (3) 推断分析,通常使用数理统计方法对所定模型或估计的可靠程度和精确程度作出推断。 数据分析过程的主要活动由识别信息需求、收集数据、分析数据、评价并改进数据分析的有效性组成。 本书为什么会在众多语言当中选择Python来实现数据分析呢?其主要原因之一是: Python是一种效率极高的语言;相比众多其他语言,Python具有简单、易学、易读、易维护等特点。 另一个原因是: 对程序员来说,社区是非常重要的,大多数程序员都需要向解决过类似问题的人寻求建议,在需要有人帮助解决问题时,有一个联系紧密、互帮互助的社区至关重要,Python社区就是这样的一个社区。 本书将数据分析的基本理论与应用实践联系起来,通过这种方式让读者聚焦于如何正确地提出问题、解决问题。书中讲解了如何利用Python的核心元素以及强大的学习库,解决数据分析中的问题。不管你是学习数据科学的初学者,还是想进一步拓展对数据科学领域的认知,本书都是一个重要且不可错过的资源,它能帮助你了解如何使用Python解决数据分析中的关键问题。 【本书特色】 1. 内容浅显易懂 本书不会纠缠于晦涩难懂的概念,而是整本书力求用浅显易懂的语言引出概念,用常用的方式介绍编程,用清晰的逻辑解释思路。 2. 知识点全面 书中从介绍Python软件出发,接着介绍Python的用法,然后介绍Python程序设计,再由实例总结巩固相关知识点。 3. 学以致用 本书理论与实例相结合,内容丰富、实用,帮助读者快速领会知识要点。书中的实例与经典应用具有超强的实用性,并且书中源代码、数据集等读者都可免费轻松获得。 【本书结构】 全书共9章,主要内容包括: 第1章掀开Python面纱,主要内容包括Python环境搭建、基本命令、数据类型、字符串操作等内容。 第2章科学计算库,主要内容包括NumPy概述、NumPy的数据类型、NumPy数组、NumPy统计函数等内容。 第3章开源科学集,主要内容包括SciPy常量模块、SciPy优化器、SciPy稀疏矩阵、SciPy图结构、SciPy空间数据等内容。 第4章数据分析利器,主要内容包括Pandas数据结构、统计性描述、Pandas重建索引、Pandas分组与聚合、数据缺失等内容。 第5章数据分析的可视化,主要内容包括基本二维绘图、三维绘图、小提琴图等内容。 第6章基于回归的数据分析,主要内容包括简单线性回归、多元回归、广义线性回归、岭回归、套索回归等内容。 第7章基于分类的数据分析,主要内容包括KNN分类器、线性分类器、逻辑分类、贝叶斯分类、决策树、随机森林等内容。 第8章基于聚类的数据分析,主要内容包括kmeans聚类、Mean Shift聚类、谱聚类、层次聚类算法、密度聚类等内容。 第9章数据特征分析,主要内容包括数据表达、交互式与多项式特征、自动化特征选择等内容。 这些算法目前应用非常广泛,也是效果不错的算法,是数据分析的主要算法,通过本书的学习,我们要学会利用Python解决数据分析中的实际问题,达到应用自如的程度。 【适读人群】 本书适合Python初学者、研究Python软件的科研者。 本书由佛山科学技术学院李晓东编写。 由于时间仓促,加之编者水平有限,书中错误和疏漏之处在所难免。在此,诚恳地期望得到各领域的专家和广大读者的批评指正。 编者2024年1月