前言
在计算机应用领域,大数据应用是最热门的主题之一; 在近几年的计算机流行语言排行榜中,Python是当前最热门的语言之一。在计算机大数据处理方面,Pandas是Python的数据分析利器,它在数据的增、删、改、查及时序分析等方面,功能十分强大且语言相当简单。可以这样说,正是因为Pandas的加入才让Python在数据分析领域有一席之地。
在日常的工作与生活中,Excel因为灵活、高效及易获取性,不管是早期推出的函数与VBA,还是近几年推出的Power BI(内置Power Query、Power Pivot等),都让其因此拥有数量庞大的用户群,从而成为众多数据分析师的首选。如果说Excel是一款数据处理神器,则Pandas同样是一款数据处理与分析神器,它们二者的应用功能存在较高的重叠性,但Pandas更为灵活、功能更强大。此外,Pandas能与Excel、CSV、SQL等日常数据进行高效无缝对接,因而越来越受到数据分析师的追捧。
回想笔者当年学习Python的经历,众多的Python第三方库、可操作Excel库曾让笔者迷糊过,也曾因此有过“从入门到放弃”的经历。直至遇到Pandas,在深入了解Pandas后,才发现原来自己当年走了弯路。这些年来“从入门到放弃”的经历与感悟萌生了笔者想写一本有关“Python数据分析、Pandas数据分析”相关书籍的想法,把那些学习中必要的知识点聚集起来,把那些学习过程的干扰因素一一摒除掉,用一个标准的流程与方法论解释一个完整的学习过程,然后用一个最简单的小数据诠释大数据的应用原理,让所有的读者不再有“从入门到放弃”的经历成为笔者写作本书的动力与目标。
本书主要内容
本书秉承less is more(少即是多)的原则,追求“简约但不简单”的风格。从入门篇到进阶篇的11章,主要围绕着一个简单的“7行8列的数据”进行有效讲解,把Pandas中使用频率最高的或效率最高的80%的函数、方法、属性有效地串接起来,以减少读者理解不同数据源的时间,让更多的精力聚焦于专业知识的学习。最后通过一个实用的案例,把Pandas的重要知识点一一串接起来,并最终轻松转化为实战案例,这也是本书的主要特色。
本书不局限于讲解Pandas语法与Python数据分析,更结合5W1H和IE(工业工程)中的ECRS(删除、合并、重组、简化)与ESIA(删除、简化、整合、自动化)的管理分析方法,通过管理学与数据分析方法的高效融合,最终实现simplicity is the best(简单就是最好的),力争一次性将所有的实战知识点掌握到位。
本书源代码
扫描下方二维码,可获取本书源代码。


本书源代码及数据源


致谢
首先要感谢清华大学出版社赵佳霓编辑,从策划到落地过程中的全面指导,她细致、专业的指导让笔者受益良多。
还要感谢笔者的妻子。本书是笔者利用业余时间完成的,写作的过程中占据了大量的个人时间及家庭时间,她的理解与支持是笔者最大的动力。
感谢笔者的父母,是你们的谆谆教诲才使笔者一步一个脚印地走到今天。
由于时间仓促,书稿虽然经过全面检查,但疏漏之处在所难免,敬请读者批评指正,你们的反馈是笔者进步的动力。
黄福星2022年3月