前言 信息技术的飞速发展使数据的产生、存储和处理能力达到了前所未有的高度。数据的丰富性和复杂性带来了巨大的挑战,同时也蕴藏着巨大的机遇。如何挖掘不同类型数据中蕴藏的丰富信息,已经成为大数据时代面临的重要问题之一。数据科学与工程,作为一门新兴的交叉学科,正是为了应对这一挑战而诞生的。数据科学与工程以数据为研究对象,通过综合运用数学、统计学、计算机技术等方法对数据进行处理和分析,以实现数据的价值。数据科学与工程的核心是算法,它们是处理数据、提取信息、发现模式和预测未来的强大引擎。 本书旨在培养新工科背景下具备数据科学思维,掌握数据科学与工程算法的大数据专业人才。本书系统地介绍了特征工程、多类型数据表征、数据抽样、图计算、随机优化算法、相似性度量、关联性分析等相关知识与方法,涵盖数据表征、数据计算和数据挖掘等多方面的内容。本书从数据科学与工程的基本概念和流程出发,逐步引领读者进入数据科学的核心领域,全面理解和掌握数据科学的精髓,为进一步深入学习机器学习算法打下扎实的基础。 全书共8章,内容包括绪论、特征工程、多类型数据表征、数据抽样、图计算、随机优化算法、相似性度量、关联性分析,不仅覆盖了传统数据科学领域的重要算法,还涉及最新的研究进展,如图计算、因果分析、多模态数据融合等前沿技术,使得本书既具有广度又具有深度。同时,本书内容结构遵循学习规律: 首先通过“问题导入”,建立现实问题与数据科学与工程相关技术的关系,明确学习目标,激发学生学习数据科学与工程相关技术的兴趣; 然后,构建相关的知识体系,介绍算法及其演化,提高学生描述问题的表达能力、解决问题的算法思维能力; 在此基础上,通过剖析典型案例,有力提高学生对知识和方法的掌握与综合运用能力,并提升学生对复杂工程问题的分析能力、综合处理能力和创新探究能力; 最后对本章内容进行总结,并提供选择题、计算题、思考题等供读者练习。 本书由徐明华、陈志刚、罗俊如担任主编,官威博士和郝亚东博士担任副主编。研究生丁言瑞、汪池和徐昕瑜参与了本书部分案例的编写,并参与了书稿的校对工作,徐守坤教授、石林教授、邵辉教授、胡超副教授等对本书提出了许多宝贵意见,这里一并表示感谢。 本书在编写过程中参考和引用了许多专家和学者的资料,在此表示衷心的感谢。最后也要感谢所有为本书的编写、审校和出版付出辛勤劳动的工作人员。由于编者水平有限,时间仓促,书中难免存在不足之处,敬请读者批评指正。 编者 2024年12月