前 言 习近平总书记在党的二十大报告中指出:教育、科技、人才是全面建设社会主义现代 化国家的基础性、战略性支撑。必须坚持科技是第一生产力、人才是第一资源、创新是第 一动力,深入实施科教兴国战略、人才强国战略、创新驱动发展战略,这三大战略共同服 务于创新型国家的建设。报告同时强调:推动战略性新兴产业融合集群发展,构建新一代 信息技术、人工智能、生物技术、新能源、新材料、高端装备、绿色环保等一批新的增长 引擎。近些年来,数据采集、数据存储、数据处理、数据分析、数据挖掘、数据可视化等 相关理论与技术都得到了飞速发展,数据科学与大数据技术相关学科知识广泛应用于各行 各业,这些应用反过来又促进了技术发展,同时也对相关技术提出了更高的要求。 数据分析与数据可视化是数据科学与大数据技术整个流程中的重要环节,数据分析 用于从海量数据中发现背后隐藏的规律并预测未来趋势,数据可视化则是数据分析与数据 挖掘过程中的重要辅助技术。虽然有多种编程语言和工具都可以完成相关任务,但基于 Python 语言是成本最低也是最灵活的方案之一,扩展库NumPy、Pandas、Matplotlib 是目前非常流行非常成熟的组合,同时也是其他解决方案的重要基础。 本书详细讲解扩展库NumPy、Pandas、Matplotlib 在数据分析与数据可视化方面 的应用,没有介绍Python 基础语法、开发环境搭建和扩展库安装方法等内容,而是假设 读者已经掌握或者至少之前已经学习过“Python 程序设计基础”之类的课程。如果读者 不具备这些基础知识,那么可能需要一边阅读本书一边查阅大量资料,或者先从作者的 另外几本教材中选择一本然后用1~2 周快速阅读前面几章。开发环境可以优先考虑使用 Anaconda3中的Jupyter Notebook或Spyder,也可以使用IDLE、PyCharm、VS Code等, 只要安装和配置好Python解释器与扩展库,都可以正常使用本书中的全部代码。作为建议, 应优先考虑使用3.9/3.10/3.11或更高版本的Python 解释器。 为节约篇幅,书中部分代码略去了用到的原始数组的值。例如,代码中可能会直接 使用数组np.arange(12).reshape(3,4) ,如果读者不能瞬间脑补这个数组的具体形 式,可以自己增加代码在交互模式中直接查看数组或者在程序中使用Python 内置函数 print() 输出数组帮助理解。另外,同样是为了节约篇幅,有些代码输出结果的格式进行 了微调,有的地方把多行合并为一行,有的地方删除了输出结果中的空行,有的地方略去 了中间一部分输出结果,建议亲自运行书上的代码查看更直观、更完整的结果以帮助理解。 为方便教学,在配套的教学PPT 上所有输出结果都忠实地保留了原始的格式。 本书采用双色印刷,所有可视化结果的彩图见配套PPT,或关注微信公众号“Python 小屋”发送消息“彩图”查看。 本书配套习题的全部客观题和前两章的编程题都放在了配套在线练习软件中,任课教 师可以联系作者获取软件并导入学生名单后实时查看学生练习情况,个人读者可以关注作 PsxZW.indd 1 2023/5/30 14:25:00 II 者微信公众号发送消息“小屋刷题”获取下载方式并免费注册正式账号。在软件界面上有 按钮可以查看本书相关的习题,如图1所示。 图1 软件界面 本书为任课教师提供教学大纲、课件、源码、习题答案、考试系统等教学资源,部分 知识点和例题还提供了微课视频,可以使用微信扫描二维码观看。任课教师可以通过清华 大学出版社官方渠道获取这些资源,也可以通过作者的个人微信公众号“Python 小屋” 联系作者获取资源和交流。公众号中推送的1300 多篇原创技术文章和700 多节微课视频 都可以作为本书内容的扩展和补充,在阅读本书过程中遇到任何问题都可以通过微信公众 号或者微信、QQ、电子邮箱联系作者,期待您的反馈。 董付国 2023 年1 月