在全世界不同的文化中,数据的收集与组织都有着悠久的历史,甚至在计算机思想出现之前很久就已存在。但只是到了互联网时代,日常产生的数据量才开始变得非常巨大,而且继续呈指数级增长,其中包括我们上传的文件、视频、照片、社交媒体信息、在线购物,甚至我们汽车的GPS导航数据。大数据这一术语所代表的不仅仅是一种量变,而是一种质变;其所指涉的不仅是新的技术,还有企业和政府利用它的方式。霍尔姆斯基于统计学、概率论和计算机科学,对大数据这一主题进行了概要性探讨,并强调指出,大数据不仅改变了商业的运营模式,而且改变了医疗研究的进行方式。与此同时,它也引起了一些重要的伦理问题,作者据此对斯诺登事件、数据安全,以及家庭智能设备可能被黑客挟持等实例进行了讨论。
大数据在21世纪的头二十年已经深深地改变了我们的生活和工作,而且这种改变还将继续深入下去,未来充满了不确定。然而,大数据给我们带来生活便利的同时,也给我们带来对侵犯隐私的恐惧。虽然我们无法完全把握大数据专家们会将算法引向何方,但了解一些大数据的基本知识,至少可以让我们减少一些内心的不安。本书以简短的篇幅,以通俗易懂的方式,探讨了当下炙手可热的大主题。
序 言
王崇骏
四方上下曰宇,往来古今曰宙!
从137亿年前宇宙大爆炸,到46亿年前地球诞生,再到38亿年前地球上开始有生命,直至约6000年前文字的出现开启了人类文明,这是一个多么漫长的过程!与其他物种大多通过遗传进化不同,人类在进化过程中发展和演化出了一种非遗传性的继承:通过独一无二且日益发达的文化媒介(语言、文字以及有意识地利用外在物和工具的特质)将知识留给后代。这种文化传承使得人类可以快速进化,并最终成为这个星球的“统治者”。
在漫长的人类文明发展史中,从源自动物性的“数觉”到为了“征服”自然界,人类开始对“数”产生了需求,并且随着这种需求的逐步膨胀,一系列的工具、算法、设备被不断发明和创造,比如早期的计时工具、计数工具,以及诸如算筹、算盘等算术工具。随着计算理论的丰富,以及机械工艺的进步,人们开始思考如何用更为精巧的设备进行计算,如纳皮尔筹、机械尺、机械计算机等;而图灵机理论的发明、冯诺伊曼体系结构的提出,以及1946年ENIAC的发明,则让数字计算时代就此来临。
在后ENIAC时代,计算机从最开始的军用走向了民用,其功能不断发展和丰富,从最开始的数值计算走向网络通信、计算感知,并逐渐应用于生活娱乐和企业管理。与此同时,也因为计算机在各个领域的渗透和深入应用,计算机从最原始的计算工具变为一个研究对象,伴随着各类计算理论的发展,计算机科学与技术、工程和应用也得到持续的发展和推进。在这个发展过程中,传统的“数”的内涵,也从最开始的“数值”不断拓展,数据开始以不同的类型、模态、视图样式出现,并服务于人们的需求,传统意义的“数值”则成为一种数据类型。
信息技术,尤其是互联网技术的迅猛发展,烟囱式软件开发模式、云计算在不同领域的不断渗透,以及人们日益多样化和碎片化的行为方式,或许还有其他更多的原因,让人们在数据层面不得不面对“大数据”这样的难题,即难以在期望的时间内利用常规工具进行有效处理并获得期望的价值。在当下的大数据时代,传统意义的“数据”成为一种可以交易的“资产”,一种具有战略资源意义的“石油”,一种提高竞争力的“资本”,一种用于科学研究的“第四范式”。出于对大数据价值期望的共同追求,社会各界都对大数据产生了极大的兴趣、热情和期盼,使得“大数据”这个概念从其诞生之日起,就得到了“政、产、学、研、商、用”的一致认同,并引起了包括哲学家、科学家、技术研究者和工程研发人员等的普遍关注。
牛津通识读本《大数据》一书,当然也是对这一社会关注点的回应。道恩??E.霍尔姆斯教授是贝叶斯网络、机器学习和数据挖掘方面的专家,她用深入浅出的文字扼要介绍了什么是数据、什么是大数据以及它有什么意义,进而对大数据应用所涉及的存储和分析技术进行了简明扼要的综述,并在此基础上,分析和研判了大数据在医学、电子商务、安全、生活等各个领域的应用。这样一本概述性质的通俗读物,非常有助于普通读者更多地了解大数据,学习大数据,应用大数据,进而培养一种大数据思维,惟其如此,才能适应未来的大数据时代。
对于本书所涉及的内容,笔者还想做一些补充说明,即看待大数据的三个视角和四个维度,以使读者对于大数据的认识更加全面。首先谈谈三个视角。
一是计算视角:从计算视角来看,大数据是一个难以获取、难以组织与管理、难以处理和分析的技术难题(以及因此而引发的各类思维层难题),也正是因为这样的难题驱动,加之人们对大数据在优政、兴业、科研、惠民等不同领域的价值期望,促使相关科研人员进行技术攻关和发明创造,进而推进了相关理论和技术的发展。
二是科研视角:从科学研究的角度来看,大数据成为继实验、理论、模拟之后用于科学研究的“第四范式”(此处的“范式”指的是从事某一科学的科学家群体所共同遵从的世界观和行为方式)。
三是商业视角:从商业应用的角度来看,大数据能够带来利润。一般而言,只要找到一个合适的应用场景,能够为这个应用场景找到一个合适的解决方案,知道数据的来源并且能够获取,而且有技术支撑(研发能力),更重要的是能够找到融资支持(经过可行性分析、盈亏平衡分析等之后),就有可能最终成功应用并获得收益。这在彰显大数据商业价值的同时,也会促使同行去挖掘更多的大数据价值。
更进一步说,大数据的价值实现,涉及数据、技术与应用的协同,具有典型的多学科交叉与跨界整合特征,因此就总体而言,大数据价值的实现至少涉及如下四个维度(层面)。
1.算法(Algorithm):大数据价值的实现路径涵盖了数据采集与汇聚、数据存储与管理、数据处理与分析、应用系统开发与运维,每一个环节都需要依赖不同的算法进行,如数据采集算法、数据汇聚算法、数据治理算法、数据处理和分析算法等。
2.商业应用(Business):大数据应用一般体现在描述性分析、预测性分析或者决策性分析等,任何一种应用都是围绕某个具体场景展开的,因此大数据价值得以实现的一个重要前提,是找到一个合适的应用场景,该应用场景既直击需求痛点并有投资回报预期,又有数据积淀和IT建设基础。大数据在这个场景的应用,能够进一步内生和富集更多数据并因而形成数据闭环,就能进一步体现和实现大数据价值。
3.算力(Computing Power):所谓算力,指的是设备的计算能力,显然,对于大数据应用而言,更精准(复杂)的算法以及更高效的计算需求都需要强大的算力支撑,因此算力是大数据价值实现的基本保障。
4.数据(Data):数据是大数据价值实现的基础,因此必须首先解决诸如数据在哪以及如何从不同的数据源获取数据,并进行有效的富集、汇聚和深入加工等问题,从而为应用提供数据支撑或高级语义支撑。
2017年,中国政府发布了“新一代人工智能规划”,明确提出了大数据智能这一概念,其内涵在于形成从数据到知识、从知识到智能的能力,打穿数据孤岛,形成链接多领域的知识中心,支撑新技术和新业态的跨界融合与创新服务。显然,大数据智能进一步明确了,在上述四个维度共同发力的基础上实现大数据价值的基本路径。
此外,笔者还想提请读者注意的是,数据的本质是行为主体(例如人)在进行各类活动(生活、工作、娱乐)时的行为、偏好等痕迹被业务系统(或互联网、物联网等)地记录在各个服务器里。因此,数据本身暗含着行为主体的隐私,所以围绕大数据价值的实现,数据隐私与安全保护是一个不可回避的重要内容。这一点在《大数据》一书中也有专章介绍。2018年5月25日,欧盟《通用数据保护条例》(简称GDPR)正式实施,在全球范围内掀起了数据保护改革的浪潮。在数据全球化深入发展的当下,如何在后GDPR时代建立起一套数据保护法律体系,既符合国际最佳立法实践又符合本国国情,既能为个人权益、数字经济、国家安全等系列利益保驾护航,又能在国际数据规则制定中占有话语权,也成为各国政策制定者普遍关注的领域。
通读《大数据》一书,萦绕于笔者心中的问题是:大数据会让我们的生活变得更好吗?如何才能让我们的生活变得更好呢?在阅读本书的过程中,笔者能够感觉到作者在成文时力求做到“在不牺牲准确性的前提下,尽可能写得简单”,同时又能做到周全和清晰。因此,本书尤其适合对大数据有兴趣的初学者,其真正的意义在于:为你打开了一扇门,并言明了很多方向。
于南京九乡河
2020年7月12日
道恩??E.霍尔姆斯,现任教于美国加利福尼亚大学圣巴巴拉分校应用概率与统计学系,主要研究领域为贝叶斯网络、机器学习和数据挖掘等。霍尔姆斯是电气电子工程师学会高级会员、《基于知识的智能信息系统国际期刊》副主编,并与他人合编了三卷本著作《数据挖掘:基础和智能范例》(2014)。
前 言
致 谢
第一章 数据爆炸
第二章 大数据为什么不一般?
第三章 大数据存储
第四章 大数据分析法
第五章 大数据与医学
第六章 大数据,大商务
第七章 大数据安全与斯诺登事件
第八章 大数据与社会
字节大小量表
小写英文字母ASCII码表
索 引
英文原文