前言 随着互联网、云计算和大数据的蓬勃发展,信息技术得到了极大的普及与应用,在人文社科领域,定量研究越来越受到普遍重视。2014年,得克萨斯大学的艺术史学家Maximilian Schich在Science上发表了Quantitative social science. A network framework of cultural history,他带领团队收集了两千多年以来历史上15万西方文化名人的迁徙信息,通过数据分析与计算研究文化史的网络框架;美国杂志撰稿作家Ben Blatt出版了Nabokovs Favorite Word Is Mauve一书,他用统计学的方法,梳理了19世纪末到21世纪初1500部经典著作,拆解出优秀作品的写作规律;近年来,我国多家科研机构建设了面向人文社科研究的数据平台,为人文社科研究范式的创新与转型提供数据支撑。 2020年11月,教育部发布《新文科建设宣言》,重磅启动“新文科”。在人文社科领域,应用数据思维和数据科学方法进行科研探索,已成为必然趋势。新文科建设与人才培养要求针对人文社科领域的科研应用需求,结合文科专业学生特点,融入现代信息技术赋能文科教育。因此,面向新文科学生的素养养成,应该建设以数据思维和编程思维为核心的教材体系,促进数据驱动的新文科研究范式发展,涵盖数据、大数据、数据管理、数据分析、数据可视化、数字化学习与创作等关键学科知识,培养学生应用编程思维和数字化工具解决问题,全面提升学生的计算机素养、数字化胜任力和进行交叉学科科研创新的关键能力。 本教材致力于深化新文科大学计算机教学改革,培养具有形象思维、数据思维和编程思维的新文科人才,能够在数字化时代更好地开展人文社科领域的数字化学习与创新训练。 本教材以及与之对应的课程目标如下。 ●了解数据思维和编程思维,理解算法的概念和程序设计的基本知识,理解智能数据处理的过程和方法。 ●能够针对实际问题进行抽象和建模,以Python语言为工具编写程序解决问题。 ●培养学生应用数据科学方法和编程思维进行交叉学科科研探索,形成较强的形象思维、逻辑思维、批判性思维和创造性思维。 本教材分为理论与实验两部分。理论部分涵盖基本概念、数据处理、数据获取、数据计算、数据分析、数据可视化及综合应用;实验部分针对各个章节的理论学习,开展数据处理、数据分析与可视化的实验。各章简要介绍如下。 第1章数据智能概述介绍数据智能概念及其技术的发展、编程思维及基本数据结构、数据隐私与数据安全,使读者了解数据科学基本概念。 第2章基本数据处理围绕算法的表达、基本数据类型、数据处理基础及批量数据处理的应用介绍算法和数据的基本概念,使读者掌握大数据处理的基本原理与方法。 第3章数据处理编程主要介绍程序的基本结构及其实现、模块化编程中必须掌握的方法和技巧,并通过解决实际问题,培养读者基本的编程思维。 第4章数据获取与计算对数据采集与文件读写、数据预处理的具体方法进行介绍,使读者了解数据预处理的作用,掌握基本的数据获取与预处理方法。 第5章数据分析与可视化围绕Python实现数据处理与可视化的全流程,介绍常用的数据结构、数据预处理方法、数据分析方法,并借助Python的NumPy、Pandas、Matplotlib等模块所提供的计算、分析、统计和绘图功能,来阐述实用的数据分析和数据可视化方法。 第6章电信行业客户行为分析与流失预警从电信行业客户流失入手,对客户行为数据进行处理,分析客户为什么会流失、什么样的客户容易流失,进而在产品业务推广过程中,提出防止客户流失的方案。实现了利用编程思维和Python编程语言,探究数据智能。 本教材编写团队全部来自华东师范大学数据科学与工程学院,他们多年来始终致力于大学计算机基础教育及相关研究,密切结合信息技术发展及人才培养的需求,着眼于将智能信息技术与教育研究实践进行深度融合,在大学计算机公共课、基础教育改革等方面做出了众多的探索与实践。 本教材的编写始于2021年年初,经过两年的创作与不断完善最终完成。在此,感谢清华大学出版社和全国高等学校计算机教育研究会的支持,感谢为大学计算机基础教学贡献力量的各位老师,特别感谢参与教材编写与审核的各位老师: 胡文心、刘艳、王肃、俞琨、蔡建华。由于时间仓促,书中疏漏及不足之处在所难免,敬请读者海涵并不吝指正。 作者 2023年5月