/ 前 言 /
PREFACE

如果你感到自己正处在黑暗之中,你要做的不是犹豫,而是开灯。
—万维钢(科学作家,物理学家)

在当今时代,自动化的机器、个性化的服务、人性化的商品无处不在,这一切都是因为采用了人工智能的算法,并构筑在大数据之上。一旦我们停止供应数据,智能世界也将停止运行。所谓的智能,事实上就是主动地获取万事万物的数据,然后为人类提供一些程序化、自动化、个性化的服务。从本质上看,这些服务都是对数据的收集、处理和反馈。
数据如此重要,但是我们大多数人却没有投入精力认真地学习它。为什么呢?一种情况是,大多数人听说了数据很重要,但不知道它为什么重要,重要到什么程度;另一种情况是,大多数人在学习或工作中掌握了一些处理数据的技术,但依然没有数据思维,更谈不上主动利用数据进行决策。高水平的数据思维应该是什么样子的?涂子沛先生在《数商》一书中给出了一个经典的案例,下面我们简要地了解一下。
2011年10月,美国佛罗里达州发生了一起恶性交通事故—一名退休警察开快车,肇事致人重伤。当地《太阳哨兵报》的女记者萨莉·克斯汀注意到了此事件,并翻阅了历年的新闻报道,发现类似事故发生过好多次。于是她意识到,警察超速行驶这件事,很可能是一个非常值得关注的社会问题。
那怎么证实警察经常违规开快车呢?采访?显然不可能。就算有警察愿意告诉你一些情况,那也只是个例,不是事情的全貌。抓现行?也不可能。克斯汀尝试过抱着测速雷达在高速公路旁边蹲守,一发现有车辆超速,立刻驱车追赶。但很快发现这根本行不通:超速的不一定是警车,追了半天,发现不是警车就白费功夫了;就算运气好,碰上了警车,你也无权截停,仅仅有影像,证据并不充分,无法指证。
克斯汀最后想到了解决办法—申请数据公开。因为警车是公务用车,根据美国的《信息自由法》,公民有权了解其使用状态。因此,她获得了110万条当地警车通过不同高速公路收费站的原始记录。警车通过收费站都有时间记录,这段路程的行驶时间就知道了。而收费站之间的距离是已知的,两个数据一除,平均速度就出来了。
克斯汀和她的团队用了3个月的时间对这些数据进行了整合分析。结果发现,在13个月里,当地3900辆警车一共有5100宗超速事件,也就是说,警车超速天天发生。而且时间记录表明,绝大部分超速都发生在上下班时间和上下班途中,这说明警察超速并不是为了执行公务。
2012年2月,克斯汀发表了系列报道,头篇报道的标题就是《他们凌驾法律之上》。在大量数据和调查访谈的基础上,克斯汀得出结论:因为工作需要和警察的特权意识,开快车成了警察群体的习惯性行为,即使下班后,身着便服,其开车速度也没能降下来,而路上执勤的警察也相互理解和纵容这种行为!
报道一出,舆论一片哗然,在当地警务部门引发了一场“大地震”。5100宗超速事件涉及12个部门的近800名警察,一些坐实违纪的警察陆续受到处理:48名州高速公路巡警被处以警告或者被勒令纪律反省;44名地方刑警被剥夺开车上下班的权利;迈阿密市有38名警察被处理,其中1名被开除,10名被停发工资。
《太阳哨兵报》只是一份地方小报,总发行量才20余万份,但因为克斯汀的报道而名声大振。克斯汀也因为这个系列报道,获得了2013年度的普利策新闻奖。这是美国新闻传播界最重要的奖项。
从这个真实的故事里,我们可以体会到:数据思维不同于数据技能,它是一种方法论,着重于培养人们利用数据提出问题和求解问题的意识。从专业角度看,女记者克斯汀的数据技能是不够的,她不会编程,不会设计数据库,也不会使用数据挖掘工具(110万条数据的规模不算大,一个数据分析师可以轻松处理这类简单任务,克斯汀却还需要组建一个团队)。不过,克斯汀提出了要解决的问题,并知道怎么利用数据产生她需要的结果,而这些结果又能完美地印证她要讲述的新闻故事—这就是数据思维。
相对于数据思维来说,大数据思维还要进一步升级,要更多地了解信息技术的基础理论和前沿知识。再举一个例子,假设我们在楼上办公,需要实时了解楼下房间内的咖啡是否煮好了,你会怎么解决这个问题?是每隔一会儿亲自跑下去检查,还是雇人看护汇报?其实,你可以在咖啡壶旁安装一个联网的摄像头,这样就能坐在办公室里用手机或计算机随时查看咖啡壶的状态了。早在1991年,剑桥大学特洛伊计算机实验室的科学家们就是这么做的,而且这套“特洛伊咖啡壶”系统在升级更新后,通过实验室网站连接到了互联网上。没想到的是,仅仅为了窥探“咖啡煮好了没有”,全世界互联网用户蜂拥而至,近240 万人点击过这个名噪一时的“咖啡壶”网站。据说,这就是物联网的起源。
为什么很多人想不到用联网摄像头来收集数据呢?因为在他们头脑中,收集数据的方法只局限于人工观测,想不到其他的方案。就像现在很多人还把市场调研局限于在超市或商厦中请求顾客填表,而不知道通过网络爬虫获取海量的间接数据。正如著名计算机科学家、图灵奖得主迪杰斯特拉所说:“我们所使用的工具影响着我们的思维方式和思维习惯,从而也将深刻地影响着我们的思维能力。”
2020年初,全球各地陆续暴发新型冠状病毒感染。仅仅一开始的1年半,新型冠状病毒感染确诊人数(累计确诊)就超过2.5亿,死亡人数超过500万,这场突如其来的灾难成了21世纪以来人类面临的最大挑战。自古以来,对抗此类疫情的第一步也是关键一步就是要“群防群控”,核心是四个“早”—早防护、早发现、早诊断、早隔离。而如何做到四个“早”呢?目前看来,最有用、最高效的工具就是大数据。
由于新冠病毒的传染性极强,一旦某人被确诊,我们就要知道他去过哪里,和哪些人接触过。只有把所有潜在的病毒传染源全部找到并及时隔离,才能把损失减小到最低程度。以前我们只能依靠确诊患者的回忆,但患者如果正在被病魔折磨,不可能记清楚所有的细节,难免出现错漏。这时候,大数据就可以发挥作用了。
公共卫生防疫部门可以通过电信运营商和互联网公司获取这个人近期的行踪轨迹,包括:他每天去过哪里,用过何种交通工具,在每个地方停留过多久,和哪些人的行踪有交集。相关机构也很快开发出了“健康宝”等手机App,每天进入商场、小区、办公楼时都让你“扫码”登记个人信息。如此一来,每个人的数据都在云端进行“碰撞”,一旦发现和患者有接触,系统就会发出警报提示其需要重点关注或隔离。疫情初期,我国的数字地图公司还绘制出了人口迁徙大数据地图,可以回溯2020年春节前后武汉近500万人的流动情况,这对疫情的防控也起到了很大的作用。
除此之外,对于病毒传播的方式和危害程度的认知,需要利用大数据进行举证和辟谣;对于疫情产生的社会影响和经济问题,也需要大数据的反馈和预测;甚至分析病毒基因、研制有效疫苗,也需要大数据技术的帮助。
这几年,市面上已经有了很多关于大数据的书籍,但绝大多数都是聚焦于搭建平台、编写代码等方面的,不仅非专业人士很难读懂,就算是信息技术领域的学生也得费一番苦功夫。其实,多数人学习大数据并不是为了开发专业的工具或者进行具体的技术研究,而是基于两个动机:一是为了在数据无处不在的世界中生存得更好,二是在这样的世界里工作得更得力。
本书更着重于和读者一起探讨:大数据对人类文明有什么意义?大数据都是从哪里来的?大数据具备哪些特点?大数据带来了什么利弊?我们应该如何应用大数据技术?多年来的教学实践表明,兴趣是第一位的,思维方式的转变是最为关键的。这并不是说具体的理论与技术不重要,而是当读者有了兴趣、转变了思维方式之后,自然会去学习和钻研。
本书第1章由曹健老师编写,第2~4章由魏星老师编写,第5章由祝晓斌老师编写,全书由魏星老师统稿。
非常感谢北京科技大学计算机与通信工程学院、北京工商大学计算机学院的鼎力支持,使我们能在繁忙的教学与科研工作之余完成本书。

编者
2023年12月
于北京