前言



对于许多旁观者而言,传统数据分析、大数据和人工智能是全然不同,且毫不相关的事物。然而,《像数据达人一样思考和沟通》这本书将要匡正这样的认知,并指出这3个领域事实上是高度相关的。它们都涉及统计思维,而一些传统的分析方法,例如回归分析、数据可视化技术等,对这3个领域同样适用。统计学中的“预测分析”与人工智能领域的“监督式机器学习”基本上就是一回事。而且,大多数的数据分析技术也适用于各种规模的数据集。简而言之,一位优秀的数据达人可以高效地处理好这3方面的工作,而花费大量时间去细究它们之间的差异则往往是无用功。固有观念2: 只有专业的数据科学家才能成为“数据热潮”中的弄潮儿。
人们有时对数据科学家盲目崇拜,认为只有他们才有可能有效地处理和分析数据。然而,近来兴起了一阵全新的、极为重要的潮流,旨在让数据思维变得更加全民化。越来越多的机构开始注重培养普通员工的数据思维和数据分析能力。自动化机器学习工具使得人们可以更轻松地建立数学模型,并利用模型出色地完成预测工作。当然,我们仍需要专业的数据科学家负责开发新算法,并为那些进行复杂数据分析工作的普通员工把关。但是,一些单位选择把与数据分析相关的工作交给单位中那些“非科班出身”的数据达人负责,这样做往往能够让数据科学家专注更重要的工作。固有观念3: 数据科学家无所不能,他们掌握着从事数据活动所需的全部技能。
数据科学家是受过专业训练,从事模型开发和代码编写工作的人。人们往往想当然地认为,数据科学家同样能够包揽模型的实际应用工作。换句话说,人们认为数据科学家是无所不能的。但实际上这样的人凤毛麟角。对于一个数据科学项目来说,那些不仅了解数据科学的基础知识,而且了解所处行业、能够有效地管理项目,并擅长建立业务关系的数据达人才是无价之宝。他们不但能够胜任数据科学工作,还能提升数据科学项目的商业价值。固有观念4: 人们需要具有非常高的数学天赋,并经受大量训练,才有可能在数据和分析方面取得成功。
一个相关的假设是,为了从事数据科学工作,人们必须在该领域接受过良好的培训,因此一个数据达人也必须非常擅长和数字打交道。数据方面的天赋与训练固然对从事数据科学相关工作有帮助,但《像数据达人一样思考和沟通》这本书中的一个观点令我深感认同: 一个拥有动力的学习者能够掌握数据和分析知识,并在数据科学项目中贡献力量。部分原因是,统计分析的基本概念远没有那么深奥;同时,想要参与数据科学项目,也并不需要极高水平的数据和分析能力。与专业数据科学家协作,或是参与自动化人工智能项目,需要的只是提出关键问题的能力和好奇心、在业务问题和定量结果之间建立联系并识别出可疑假说的能力而已。固有观念5: 如果你在大学或研究生阶段的主要研究方向并非定量(quantitative)领域,那么现在学习数据和分析方法所需的知识就为时已晚。
这一观念甚至得到了调查数据的支持: 在Splunk公司于2019年对全球约1300名高管的调查报告中,几乎所有受访者 (98%) 都认为数据技能对他们未来的工作很重要。81%的高管认同数据技能是成为高级领导者所必需的,而85%的人认为掌握数据技能会让他们在公司中变得更有价值。尽管如此,仍有67%的人表示他们不习惯自己获取或使用数据,73%的人认为数据技能相较于其他业务技能更难习得,53%的人认为自己年纪太大,已经错过了学习数据技能的黄金时期。这种“数据失败主义”(data defeatism)对个人和组织都是有害的,而本书作者和我都认为这不过是无稽之谈。仔细阅读本书正文,你会发现其中不涉及任何艰深难懂的知识!
因此,抛开这些固有的观念吧,让自己成为一个数据达人。你将成为职场上更有价值的员工,并帮助你所在的机构变得更加成功。这就是世界的发展方向,是时候开始加入浪潮,更加深入地了解数据及其分析方法了。我相信,阅读《像数据达人一样思考和沟通》,探索数据科学,你将会收获一段富有价值且充满乐趣的旅程。前言对于本书的读者来说,无论主观意愿如何,数据或许已经成为你工作中最重要的一部分,没有之一。而你之所以翻开这本书,大概是因为希望能够了解数据究竟是怎么一回事。
首先,有必要重复一个老生常谈的问题: 在这个时代,每个人创造和接收的信息比以往任何时候都多。毫无疑问,现在是一个数字的时代。而这个数字时代也催生了一个充斥着承诺、行话和产品的行业,其中许多是翻开本书的你,你的经理、同事和下属正在或将要接触的。但是,尽管与数据相关的承诺和产品不断涌现,数据科学方面的商业项目却往往会很快就陷入失败。美国科技博客VentureBeat在2019年进行了一个调查,其中显示87%以上的数据项目以失败告终。
这里需要澄清一下,我们并非暗示所有关于数据的承诺都言之无物,或所有的产品都糟糕透顶。相反,要真正了解这个领域,必须首先接受一个基本事实: 事情远比我们想象的要复杂。从事数据方面的工作意味着与数字、细微差别和不确定性打交道。数据至关重要,这毫无疑问,但与此同时,它并不简单。然而,有一个行业却在试图让人们忽视这一点——这是一个在不确定的世界中试图承诺确定性,并利用公司对落伍的恐惧而牟利的行业。我们在本书中将其称为数据科学工业复合体(Data Science Industrial Complex)。
数据科学工业复合体
对于身处其中的每个人来说,数据科学工业复合体都是一个有待关注的问题。企业不断买入产品,期待它们能代替自己进行思考;经理们雇佣名不副实的专家;各种机构都在招聘数据科学家,却并没有做好迎接他们的准备;高管们不得不聆听无穷无尽的行业黑话,并假装理解。这样的现状造成了大量数据项目的停滞和资金的浪费。
像数据达人一样思考和沟通前言而与此同时,数据科学工业复合体却在以令人头晕目眩的速度生产着新的术语,令人难以把握这个行业所制造出的商机(以及风险)。甚至只消眨眼工夫,你就会错过新的重要内容。当本书的两位作者开始共事时,大数据正是时代的“宠儿”。随着时间推移,数据科学的概念流行起来。在那之后,机器学习、深度学习和人工智能闪亮登场,成为下一个焦点。
对于那些富有好奇心和批判性思维、善于思考的人们来说,这一现象看起来不甚合理。这些真的都是全新的问题吗?还是那些新定义不过是新瓶装旧酒,将旧的概念重新包装?
但一个更关键的问题是,如何才能对数据进行批判性思考和讨论?本书将用具体的案例进行说明。
阅读本书,你将会习得理解数据科学复合体所必需的工具、术语和思维;能够在更深层次上了解数据及其挑战,批判性地看待呈现在面前的数据与结论;并且能够明智地谈论与数据有关的种种事物。
简而言之,你将成为一位数据达人。
我们为何关心
在进入详细的讨论之前,有必要介绍一下为什么本书的两位作者如此关心“数据”这个话题。下面分享两个例子,用以说明数据是如何影响整个社会以及每一个人的生活的。
次贷危机
次贷危机爆发时,本书的两位作者刚从大学毕业。那是在2009年,找工作很难,但我们非常幸运地在美国空军谋到了职位,因为我们有一项当时人们亟需的技能: 处理数据。我们每天都在与数据打交道,努力将空军分析师和科学家的研究成果转化为政府可用的产品。美国空军雇佣了我们,这预示着整个美国都将要开始重视类似的职位了。作为数据工作者,我们对次贷危机产生了好奇与兴趣。
促成次贷危机的因素众多。把它列为本书中的一个案例,并非想要否定其他因素带来的影响。但简而言之,我们将其背后的原因归结为一起重大的数据失败事故。银行和投资者建立模型,为担保债务凭证(Collateralized Debt Obligation, CDO) 估值。可能有些人还记得,正是CDO这个投资工具使得美国市场陷入崩溃。
人们曾一度认为CDO是一种安全的投资,因为它们将与贷款违约相关的风险分散到多个投资单位。这样,即使投资组合中有少数违约,也不会对整个投资组合的潜在价值造成重大影响。
然而,经过反思回顾,我们知道某些基本的潜在假设是错误的。其中最主要的一条,莫过于认为违约是独立事件,即A拖欠贷款并不会导致B的违约风险。我们很快就能意识到,违约事件更像是多米诺骨牌,一次违约常常会带来连锁反应。当一笔债务违约时,其相邻房产的价值将会下降,这些相邻房产的违约风险就会相应增加。一次违约很快就能将周边的一整个街区拖入深渊。
把事实上存在联系的事物进行独立性假设是统计学中常见的错误。
但我们进一步深究这个故事就会发现,正是投资银行建立了高估这些资产的模型。本书后面将会说明,想要建立一个数学模型,必须对客观现实的某些维度进行简化,提出一些关于现实世界的假设,来试图理解和预测某些现象。
那么是谁在创造和解读这些模型呢?他们是为今天的数据科学家奠定基础的人,他们可能是统计学家、经济学家、物理学家,或是从事机器学习、人工智能和统计学相关职业的人。他们经常与数据打交道,而且聪明绝顶。
但就是这样一群每日与数据打交道的聪明人,还是在这个问题上出了差错。是因为他们在工作时没有提出正确的问题吗?还是说从分析师到决策者一次次的汇报和沟通中,每一个不确定性都被拆解、剥离,给人一种住房市场完全可以预测的错觉?相关人员是否在他们得到的结果上显而易见地撒了谎?
而更加与我们相关的是,如何在自己的工作中避免类似的错误?
我们提出了很多问题,却只能对答案做有限的推测。但有一点是很清楚的——次贷危机的背后是一场大规模的数据灾难。而且,这不会是最后一次数据灾难。
2016年美国大选
在2016年11月8日举行的美国大选中,美国共和党候选人唐纳德·J.特朗普击败了民意调查领先的民主党候选人希拉里·克林顿,赢得了大选。对于政治民意调查员来说,这一结果令人震惊。他们的模型并未预测到特朗普会当选。然而2016年本应是选举预测模型大放光彩的一年。
2008年,纳特·西尔弗(Nate Silver)在《纽约时报》的538博客成功地预测了巴拉克·奥巴马的胜利。当时,对于他的算法能否准确地预测选举,许多权威人士保持着将信将疑的态度。到了2012年,随着奥巴马的成功连任,成功预测了这一结果的西尔弗再度成为焦点人物。
那时,商业世界已开始接纳数据这一新事物并聘请了许多数据科学家。西尔弗对奥巴马连任的成功预测则再一次展示了用数据进行预测的重要性,以及其近乎神谕般的能力。商业杂志上的文章向高管们发出“通牒”: 要么现在就开始重视数据,要么就等着被数据驱动的竞争对手吞并。数据科学工业复合体正马力全开。
到2016年,每个主要新闻媒体都投资了一种算法来预测美国大选结果。他们中的绝大多数都认为,民主党候选人希拉里·克林顿将会取得压倒性胜利。但是他们都犯了巨大的错误。
如果将他们的错误与次贷危机相提并论,我们就能更深切地感受到这是一个多么严重的失误。有人会说,我们从过去中吸取了教训,对数据科学的关注将帮助人们避免重蹈覆辙。的确,自2008年以来,新闻机构聘请数据科学家,投资民意调查研究,创建数据团队,并花费更多资金确保数据质量。这就引出了一个问题: 投入这些时间、金钱、努力和教育,最终结果如何呢?纳特·西尔弗在一系列文章中详细地分析了这个事件(fivethirtyeight.com/tag/therealstoryof2016)。就像次贷危机的例子一样,一些民调网站错误地采取了独立性假设。
我们的推测
为什么会出现这样的数据问题?我们认为有3个主要原因: 问题本身的复杂性、批判性思维的缺乏、数据科学家与决策者的沟通障碍。
首先,正如我们之前提到的,数据是一个非常复杂的领域。许多数据问题从根本上来说都是很难解决的。即使公司拥有大量数据,运用了正确的工具和技术,并雇佣了最聪明的分析师,预测还是会出错。这并非是在指责数据和统计学,而是在陈述现实。
其次,一些分析师和利益相关者已经不再批判性地思考数据问题。数据科学工业复合体为人们描绘了一幅确定和简单的图景,而一部分人也选择了灌下这碗“迷魂汤”。也许这就是人性: 人们不愿承认他们对未来一无所知。但是为了正确地处理和使用数据,一个关键要点就是要认识到我们有可能做出错误的决策。想要认识到这一点,就必须坦率地谈论风险与不确定性,并确保每个人都能理解。不知为何,这类信息往往被遗失了。虽然我们曾希望,与数据分析相关研究和方法的巨大进步能够促进每个人的批判性思维,但最终结果却是它导致一些人失去了这种能力。
而持续引发数据问题的最后一个因素,则是数据科学家和决策者之间的沟通障碍。很多项目出发点非常好,但结果往往在沟通的过程中丢失或走样。项目的决策者缺乏理解数据的语言,因为没有费心培养自己的数据素养。而且,数据工作者也很难从商业的角度讲好一个完整的故事。换言之,二者之间存在着沟通的鸿沟。
工作场景中的数据
并非每个数据问题都足以引发全球金融海啸,或错判下一任美国总统,但这两个例子发生的情境仍然值得关注。如果说整个世界都密切关注的事件仍然会存在沟通障碍、误解和批判性思维的缺失,那么在普通的工作场景中,也极有可能发生类似的事情。在大多数情况下,微小的错误逐渐积累,就会营造出一个愈发缺乏数据思维的工作氛围。这在工作场景中时有发生,场景中的每个人都对此负有责任。
董事会上的一幕
想必科幻小说和动作电影的爱好者对这样的一幕不会感到陌生: 主人公面临难以逾越的难关,为此世界各国领导人和科学家齐聚一堂,讨论现状。这时,看上去最古怪的一位科学家提出了一个想法,并抛出无数深奥的行业黑话,直到某位领导人咆哮道: “说人话!”在这之后,观众将会看到一些阐释性的情节,用来说明先前剧情的含义。此类情节的目的,是将任务的关键信息转化成不仅主人公知晓,而且普通观众也能理解的事物。
作为美国联邦政府的研究人员,我们时常讨论此类电影桥段。为什么?因为现实中似乎从未有过类似的情节,我们在职业生涯早期的经历往往与此完全相反。
在展示工作时,我们面对的往往是茫然的目光、无精打采的点头,以及沉重的眼皮。台下的听众虽然困惑不已,但似乎对听到的一切毫无异议、照单全收。他们要么是被我们表现出的聪明才智折服,要么因为不知所云而感到无聊透顶。从来没人要求我们用所有人都能理解的语言重复之前所说的话。我们面临的场景截然不同,它往往是这样的:数据科学家: “我们使用多元逻辑回归方法,对二元响应变量进行了监督学习分析,发现样本外表现为特异性0.76,此外,当α为0.05时,有几个独立变量达到了统计显著。”
商业人士: (尴尬的沉默)
数据科学家: “我们说得清楚吗?”
商业人士: (依然沉默)
数据科学家: “有什么问题吗?”
商业人士: “暂时没有问题。”
商业人士的内心独白: “他们到底在说什么?”如果在电影中出现这样的一幕,人们或许会说“稍等,倒回去重看一遍,我应该是错过了什么”。但在现实中,尽管阐述的问题确实至关重要,这种情况却鲜少发生。没有人会倒回去重看,更没有人要求阐明。
现在回过头看,那些工作展示确实过于技术化。部分是出于单纯的固执: 正如前面说到的,在次贷危机之前,技术细节往往被过分忽略了,数据分析师只会说一些让决策者开心的话。而那时的我们打算改变这个风气,希望听众能听取我们真实的意见。但我们后来才意识到自己矫枉过正了——如果听众连听懂都做不到,自然更无法对内容进行批判性思考。
我们相信,解释数据应该有更好的方法,使得我们的工作产生价值。于是,我们开始练习向彼此及其他听众解释复杂的统计学概念,并询问他们解释得怎么样。
我们逐渐发现,数据工作者与商业人士之间存在着一个中间地带,在这里双方都可以开诚布公地讨论数据,这样的讨论既不会过于技术化,又不会过分简化。这个中间地带存在的前提条件是,双方必须从更具批判性的视角看待或大或小的数据问题,这也正是本书讲述的主要内容。
你有能力把握大局——数据分析第一课
为了更好地理解与处理数据,读者首先需要做到在面对那些乍一看十分复杂的数据概念时,摆脱抗拒心理。此外,如果你已经对这些数据概念有一些初步的了解,也能从这本书里学到该如何将其“翻译”成其他相关人士可以理解的语言。
人们在讨论数据时,常常会回避一些方面,即数据在很多公司中是如何失效的。但人们都需要了解这一方面,并且要培养面对数字与概念时的直觉、鉴别能力,以及适度的警惕。这听上去像是异想天开,但本书将会帮助读者轻松掌握这些知识和能力,并且不要求读者具有多么高超的编程技巧或学术水平。
本书将会借助清晰的讲解、思想实验与比喻说明来建立一个完整的知识框架,其中包含数据科学、统计学与机器学习。
饭店分类
一家空置的商铺前贴出了这样的告示: “饭店即将开业。”千篇一律的连锁餐厅令人厌烦,而独立的本地风味餐厅往往能使人耳目一新,人们难免会好奇: “这家新店会是哪一种?”
我们用更严谨的语言描述这个问题: 预测将要开业的新饭店究竟会是连锁餐厅还是独立餐厅。
请先给出一个猜测,再继续阅读接下来的内容。
如果在现实生活中遇到这样的情境,跟随直觉的答案往往八九不离十。
假如餐厅开在潮流街区,周围全都是各式各样的小酒馆和小饭店,那么“独立餐厅”是更为合理的猜测。如果是开在高速公路或大型商场旁边,那么猜测“连锁餐厅”准没错。
但对于上文描述的这个问题,我们却很难给出答案。因为信息不足。事实确实如此。这个问题没有提供任何数据,我们也自然无法做出任何决定。
我们得到的第一个教益是: 为了做出有理有据的决策,首先需要获取数据。
图0.1中提供了一些数据。这家新饭店的位置被标记为X,图中的C代表连锁餐厅,I则代表独立餐厅。有了这些信息,你会给出怎样的猜测?
图0.1俄亥俄州辛辛那提市莱茵区(Rhine Neighborhood)某街区地图
大多数人会猜是I(独立餐厅),因为附近的餐厅基本上也都是I。但应该注意到,有几家餐厅并不是I。如果设立一个从0到100的量度,那么人们对这个猜测的信心写给统计学同行的脚注: 这里指的是通常意义上的信心,而不是统计学意义上的置信度。应该会是一个很高的数字,但绝对不是100。也有可能会有一家连锁餐厅开到这附近。
我们得到的第二个教益是: 预测不会100%准确。
图0.2中也有一些数据,其展示的区域中有一个大型购物中心,而附近的大多数餐厅也都是C。当被问及同样的问题时,大多数人都会猜测是C。但小部分人会选择I,这样的选择值得关注,因为从中可以获得一些教益。
图0.2俄亥俄州辛辛那提市Kenwood镇中心地图
在这个思想实验中,每个人都在头脑中建立了一套大同小异的算法。每个人都会研究X点周围的饭店标记,以此建立对附近区域的了解,但在此过程中,我们会排除一些餐厅,因为它们距离目标太远,无法起到参考作用。最极端的情况下(偶尔会发生这样的情况),或许有人会仅参考与目标距离最近的一个餐厅。而在这个例子中,距离最近的是一家独立餐厅,于是可以做出这样的预测: “因为距离X点最近的邻点是I,所以预测X将会是I。”
然而,绝大多数人会参考附近的多家餐厅。图0.2中有一个圆圈,其中包含了与新开餐厅距离最近的7家餐厅。当然也可以选择其他的数字,但这里我们选择了7。而这7家餐厅中有6家是C,因此我们的预测也是C。
分析
如果你已经彻底理解了餐厅的例子,那么你已经在成为数据达人的道路上前进了一大步。接下来是对这个案例中相关知识点的详细分析。
(1) 这是一个分类问题,我们需要基于数据(周围餐厅的地理位置及类型)进行训练,从而预测一家新餐厅的标签(连锁餐厅还是独立餐厅)。
(2) 这正是机器学习所做的事情,只不过这里不需要在计算机上构建一个算法,而是使用了我们自己的头脑来解决这个问题。
(3) 更具体一点,这类机器学习任务称为监督学习,之所以称为监督学习,是因为其他餐厅的类型均是已知的,也就是具有确定的标签。这些标签可以引导(也可以说是监督)我们建立认知,在餐厅的位置与类型之间找到某些联系。
(4) 再具体一点,这项任务中用到了分类监督学习中的k近邻算法。当k为1时,只需要观察最近的1家餐厅,就可以给出预测。当k为7时,就需要查看最近的7家餐厅,并依据其中的多数进行预测。这是一种符合直觉且非常有效的算法,当中也没有任何深奥难懂之处。
(5) 为了做出有理有据的决策,人们需要获取数据。同时,仅有数据也是不够的。毕竟,本书的核心内容是批判性思维。我们不仅会展示事物的原理,也会指出它何时失效。基于前面给出的数据,想要预测这家餐厅是否适合带小孩子去,也是不可能完成的工作。为了使决策能够有理有据,并不是随便什么样的数据都能起到帮助,我们需要的是准确、恰当和充分的数据。
(6) “……对二元响应变量进行了监督学习分析……”还记得前面我们提到的那段技术黑话吗?恭喜你,在上述的案例中,你已经完成了一次对二元响应变量的监督学习分析。响应变量是标签的一个别名,而所谓的二元指的是它可以取两个值,即C或I。
本书面向的读者
正如本书开头所说,现如今许多公司的员工都会在工作中接触数据。我们虚构出了几位典型人物,用以代表阅读《像数据达人一样思考和沟通》能够有所收获的人群:
 米歇尔是一名营销专家,平时与数据分析师一同工作。她负责制订公司的营销计划,她的数据分析师同事则负责收集数据,以衡量计划所带来的影响。米歇尔想要着手做一些更有创新性的工作,但她不知道该如何向同事传达自己在数据和分析方面的需求。两人之间遇到了沟通困难。于是,米歇尔尝试上网搜索一些近年来的流行词(如机器学习和预测分析),但与其相关的大多数文章要么太过技术化,有很多晦涩的计算机代码;要么就是数据分析软件或咨询服务的广告。这让她愈发感到无所适从。
 道格是一位生命科学博士,在一家大公司的研发部门工作。作为怀疑论者,他很想知道近来备受关注的数据话题是否只是江湖郎中的“万金油”。但在办公室里,道格从来都不曾表达自己的观点,尤其在面对他的主管时——这位主管甚至穿着印有“数据是新潮流”字样的文化衫,不想被视为“数据勒德分子”译者注: 原文为data luddite,这里指不能适应新技术的人。。与此同时,道格感到跟不上节奏,决心了解数据科学究竟有什么可值得大惊小怪的。
 雷吉娜是一名公司高管,她很清楚数据科学的最新趋势。她负责监督新成立的数据科学部门,因此需要时常与公司的高级数据科学家沟通。雷吉娜信任她手下的数据科学家,认可他们工作的价值,但因为她需要时不时向董事会阐明自己团队的成果,她希望更深入地了解公司业务方面的工作内容。同时,雷吉娜还负责把关公司新技术软件的采购。她怀疑一些供应商关于“人工智能”这一概念天花乱坠的吹捧是不可信的。因此,雷吉娜希望用更多的技术知识来武装自己,将供应商的营销宣传与产品的实际表现区分开来。
 尼尔森获得了一份新职位,要管理3名数据科学家。尼尔森是计算机科学家出身,知道如何编写程序、开发软件、处理数据,但在统计学和机器学习方面是新手。因为他有一些相关的技术背景,他有意愿和能力了解更多的细节,但总是抽不出时间去学。他的上司也一直在要求他的团队完成更多与机器学习相关的工作,但对于现在的他来说,这一切似乎都是一个神奇的黑箱。尼尔森正在搜索资料,来帮助他在团队中建立威信,并搞清楚哪些问题是机器学习可以解决的,哪些则无法解决。
希望你能与上述角色产生共鸣。他们几人(或许也包括你)之间的共同点,是希望能够更好地“消化”工作中接触的数据及其分析。
我们还虚构了一位特殊的人物,来代表本应阅读这本书,却可能不会阅读的人。正如每个故事都需要一个“反派”,这位人物就是本书中的“反派角色”。
 乔治是一位中层经理,经常阅读与人工智能相关的最新商业文章,并将他最喜欢的那些文章转发给他的上级与下属,以证明他在紧跟技术潮流。不过,在会议室里,他更喜欢“跟从直觉”。乔治喜欢让他手下的数据科学家用一两张幻灯片展示少许数据,但一旦涉及更多数据就免谈。当分析结果与他在发布任务之前的直觉判断一致时,乔治会向上汇报,并向同级吹嘘他是如何为打造“人工智能企业”而努力的。但如果分析结果不符合他的直觉,他会向他手下的数据科学家提出一系列含糊不清的问题,让他们四处乱撞,直到恰好碰到推进项目所需的“证据”。
不要将乔治作为榜样。如果你认识一位“乔治”,请向他推荐这本书,并说他们让你想起了“雷吉娜”。
撰写本书的初衷
就像我们上面列出的典型人物一样,很多人都想了解数据科学,却不知道从哪里开始。现有的数据科学和统计学书籍已经涵盖了广泛的领域。这类书的一个极端是那些大力渲染数据优点和前景的非技术类书籍,其中有些质量稍好,但即使是最好的那部分,也给人感觉像当今常见的营销书籍。尤其,其中许多是由非专业人士撰写的,他们只是希望为最近兴起的数据话题增添热度而已。这些书讲述了如何通过数据的视角来看待问题,从而解决特定的业务问题,书中甚至可能会使用人工智能、机器学习等词汇。请不要误会,我们承认这些书确实能够提高人们对于技术前沿的关注度。然而,它们不会深入介绍前人已经完成的具体工作,而只是在很抽象的层次上专门关注问题和解决方案。
这类书的另一个极端则是技术含量极高的书籍。那些动辄500页以上的大部头乍一看就令人生畏,里面的内容更使人望而却步。
这两个极端各自有着海量的书籍,大多数人要么只阅读商业书籍,要么只阅读技术书籍。极少人同时阅读二者,这也加深了两类读者之间的鸿沟。
值得庆幸的是,这两个极端之间的中间地带也有着一些优秀的书籍。作者最喜欢的两本是:
Data Science for Business: What You Need to Know about Data Mining and DataAnalytic Thinking,福斯特·普罗沃斯特(Frost Provost)、汤姆·福西特(Tom Fawcett)著。
Data Smart: Using Data Science to Transform Information into Insight,约翰·W.福尔曼著。
我们希望本书也能加入这类书的行列。本书是一本不必借助计算机或草稿纸就可以轻松阅读的书籍。如果你喜欢我们的作品,那么建议你继续阅读上面推荐的这两本书,以加深和巩固自己对数据科学的理解。它们是不会令人失望的。
另外,我们也热爱本书所涉及的内容。如果我们能够将这种热爱传达给你,激发你对数据和分析的兴趣,让你渴望学到更多,那么这本书无疑就是成功的。
本书的内容
本书将帮助你构建一个关于数据科学、统计学和机器学习的心智模型(mental model)关于心智模型的论述,详见这本著作: Teaching tech together,Wilson G. (2019), CRC Press.。什么是心智模型? 它是对一个领域核心内容的简要介绍,掌握了心智模型后,就能够解决该领域的相关问题。可以将心智模型视为在大脑中新开辟的一个存储室,用来存储更多信息。
某些书籍和文章会在开篇给出一系列定义: “机器学习是……” “深度学习是……”。如果仅仅接触这些定义,而没有建立相应的心智模型来归纳信息,就会像在没有衣柜的房子里堆了一箱箱的衣服一样。它们总有一天会被你当作垃圾扔掉。
但是通过新构建的心智模型,你将学习如何思考、谈论和理解数据,成为一位数据达人。具体而言,通过阅读本书,你将能够:
 以统计学的方式思考,并理解随机变化在生活和决策中所扮演的角色;
 精通数据——明智地讨论工作中遇到的统计数据与分析结果,并提出正确的问题;
 切实地了解机器学习、文本分析、深度学习和人工智能;
 在处理和解读数据时避免常见的陷阱。
本书的内容组织
数据达人是能够批判性地看待数据的人,这与他们担任的具体职位无关。一位数据达人可能是敲键盘的分析师,也可能是坐在会议室桌前审核他人工作的人。本书将会展示一位数据达人应该怎样应对工作中不同的角色。
虽然本书内容是按时间顺序组织的,但每章的内容彼此独立,读者可以根据自己的需求选择章节或打乱章节顺序阅读。推荐的阅读顺序是从头到尾,以便构建一个从基础到深入的心智模型。
本书分为4篇。
第1篇掌握数据达人的思维
本篇中,你将学习数据达人的思考方式——批判性地看待你所在工作机构的数据项目,并提出正确的问题;了解数据的定义及如何使用正确的术语;学习如何通过统计学的视角看待世界。
第2篇掌握数据达人的语言
数据达人将会积极参与重要的数据交流。本篇包括如何使用数据与人辩论,以及如何提出问题来澄清统计结果的含义。读者会接触统计学和概率论的基本概念,这些概念有助于理解统计结果并对其提出合理的质疑。
第3篇理解数据科学家的工具箱
数据达人应该理解与统计和机器学习模型有关的基本概念。本篇将对无监督学习、回归、分类、文本分析和深度学习等概念提供直观的阐释。
第4篇确保成功
数据达人应该了解处理数据时常见的错误和陷阱。本篇将介绍导致项目失败的技术陷阱,数据项目中涉及的人员和他们的秉性。最后,我们将引导读者学习如何成为一名成功的数据达人。
进入正文前最后的话
前文已经提到,数据领域的高速发展使我们很难及时阐明它所带来的全部商机与风险。前面的例子则显示,小至作者本人,大至整个社会,都曾犯下许多数据错误。只有先了解过去,才能更了解未来。我们通过餐厅分类的案例引入了几个重要概念,作为这段旅程的起点。
如果想要在更深层次上理解数据,就需要拨开纷乱的表象,批判性地思考数据问题,并与数据工作者进行有效沟通。
准备好了吗?翻开下一页,让我们正式开启成为数据达人之旅。