前言 在本书第1版付梓之后,我便继续投身于互联网人工智能(Artificial Intelligence,AI)新产品的研发领域。时隔近5年,回望这段时间,我亲身感受到了人工智能理论和技术日新月异的飞速发展。 在此期间,我看到了大量承载着人工智能前沿理念和技术的次时代原型产品被孵化出来,不断刷新着人类的认知: 波士顿动力(Boston Dynamics)公司的机器人Atlas可以像人类运动员一样实现跑步越障、后空翻和惊人的三级跳动作;OpenAI设计的人工智能体能够在Dota 2这样环境复杂的策略对抗游戏中几乎“全面碾压”人类优秀选手;DeepMind构建的AlphaGo系列对弈程序接连战胜了多位人类顶尖围棋大师;国内外自动驾驶平台所支持的新型汽车陆续投入量产……同时,许多世界顶级的科研人员在机器视觉、语音合成、阅读理解等人工智能的细分领域进行着不懈的理论探索,就在这短短几年间,我们不断听闻人工智能已经逐渐在这些细分领域超越人类的平均水平。而这些各自深耕的细分领域技术经过工程化的打磨和融合之后,又重新在一些既有的人工智能产品上给我们带来了全新的体验。例如,更加实时和准确的机器同声传译;或者是那些能和真人打电话,聊天过程完全不会尴尬,甚至有点“萌”的多轮对话语音助手。 这些新的技术进步和大量的读者来信时刻鞭策着我。许多表示本书第1版给予了他们莫大的帮助;同时也有资深的前辈指出了第1版中的疏漏和不足。这里,我一并诚挚地感谢大家。其实从本书第1版发行之后,我就一直有意继续跟进、维护和更新本书;怎奈步入职场之后,业余时间的确不如在校期间那般充裕,再版的计划一再被搁置。 这5年间,我也意识到书中一些重要的机器学习平台已经有了明显的变化。比起本书的第1版,Scikitlearn从0.17.0更新到0.24.2,并且其1.0版本也发布在即;TensorFlow也有多年的历史,版本号持续维护到2.6。期间,许多新的机器学习模型被添加到Scikitlearn与TensorFlow中,一些API也被调整和修改;许多其他的机器学习平台,如PyTorch、PaddlePaddle等,也逐渐受到更多的关注。上述现象都不停地暗示我应该做出改变了。因此,我在互联网人工智能产业界5年有余的积累之后,决定开始第2版《Python机器学习实践——从零开始通往Kaggle竞赛之路(2022年度版)》的规划和写作。 自这一版开始,本人将力争持续跟进Python、pandas、Scikitlearn、PyTorch、TensorFlow、PaddlePaddle,以及PySparkML的更新,及时推出再版,保持和维护全书内容的先进性和代码的可用性。同时,本书将继续延续我们的理念: 力求减少读者对编程技能和数学知识的过分依赖,进而降低理解本书与实践机器学习模型的门槛;试图让更多的兴趣爱好者体会到使用经典模型,乃至更加高效的方法解决实际问题的乐趣。 全书介绍的上述核心工具,均是作者本人长期总结行业经验,精心筛选后的成果。在面对现实中的工程或者科研问题,或参加一些公开的竞赛(如Kaggle、天池竞赛等)时,相信本书都能够帮助读者使用Python编程语言快速上手,并结合一系列经典的开源工具,搭建行之有效的计算机程序来解决实际问题。 在大数据时代,只要是与数据相关的从业人员,掌握Python编程、数据分析、机器学习的能力,都是不错的职业加分项。不论是在金融、统计、数理研究、社会科学、工业工程等领域的从业者,还是在互联网行业的程序员、数据分析师、运营人员、产品经理等,都会对本书有着不同程度的学习需求。 本书所介绍的知识也能够帮助读者通过一些专业类的考试,如人工智能工程师认证、注册数据分析师认证(CDA、CPDA)等。同时,鉴于内容的入门性和普适性,本书也可以被广泛用于初、高中生的信息学兴趣培训,专科职业教育,本科、研究生通识课程的讲授等。 衷心地希望每一位读者朋友都能够从本书获益,这也是对我最大的鼓励和支持。欢迎大家关注我的新浪微博https://weibo.com/fanmiaothu。普及人工智能,使机器学习的理论与实践成为一种大众的通识教育,始终是我编写本书的长期目标和动力。 下载地址1 下载地址2全书基于Python 3的实践代码和数据均已分别开源在Gitee和Github平台: ●中国境内的读者,请在gitee.com上搜索关键词MLKaggleGitee2022,或扫描二维码下载地址1进行下载。 ●其他地区的读者,请在 github.com上搜索关键词MLKaggleGithub2022,或扫描二维码下载地址2进行下载。 扫描书后的二维码源程序亦可获取本书代码。 欢迎大家批评指正书中的任何错误,并发送至电子邮箱: fanmiao.cslt.thu@gmail.com。 〖1〗Python机器学习及实践——从零开始通往Kaggle竞赛之路(2022年度版)〖1〗前言致谢 感激父母长久以来对我的关爱和支持,让我可以持续不断地追求学业的成长和进步。 自我踏入北京邮电大学校门的第二年,便十分有幸得到吴国仕教授的指导。彼时的我还不知道,作为一名大一新生,能够有这样一位在企业智能信息化方面深有造诣的老教授亲自指导,是一件多么幸运的事情。 而后,我在人工智能方向上的成长之路便开始了。在清华大学、纽约大学、百度公司等多个人工智能领域的优秀科研院所与企业,我先后得到了郑方、周强、Ralph Grishman、王海峰、王建民等一众知名教授的悉心指导。从每一位老师的身上,我都发现了许许多多不同的优秀品质。不管是对人还是对事,这些优秀品质,都对我的成长和求学之路给予了莫大的帮助。 在漫长的求学之路上,我也结识了一些行业内优秀的学者朋友,感谢张民、马少平等教授为本书撰写推荐语。 感谢清华大学出版社的谢琛编辑。从第1版开始,她就担任本书的责任编辑。如果没有她一直以来的辛勤工作,这本书也无法高质量地呈现到各位读者面前。 范淼2022年6月