从另一个角度认识大数据的力量,带我们走出大数据分析与解读的误区,帮助我们培养出数字直觉。
我们生活在大数据的时代,在本书中,统计学专家冯启思将告诉你在什么时候可以接受大数据“专家”的结论,什么时候要对这些统计数字提出质疑。他深入人们日常生活和工作中广泛关注的话题,如学校排名、健康指数、就业统计、团购网站等,通过对这些数据的分析与解读来告诉人们什么才是正确的答案,如何才能培养出数字直觉。作者还在书中告诫人们在当今这个信息超载的时代,媒体充斥着各种不良信息,千万不要轻易地信以为真,要学会对“伪大数据”说不!
畅销书《数据统治世界》作者、美国纽约大学统计学权威教授、超高人气的博客“垃圾图表”博主最新力作! 引领你拨开大数据分析的层层迷雾,帮你认清大数据分析与解读背后的真相。 在这个充满数据的世界里,我们不仅要让数据为我们所用,更要擦亮双眼,培养敏锐的“数字直觉”,在别人为大数据大唱赞歌的时候,保持清醒,甄别其中的真伪。
冯启思(Kaiser Fung)是一位专业的统计学家,在市场营销和广告领域中,拥有超过15年的应用统计学方面的经验,曾任职于美国天狼星卫星广播公司、美国运通公司、[x+1]公司、Exodus通信公司、美国圣思网络公司等知名企业。他也是纽约大学的兼职教授,教授实用统计学,还是人气博客“垃圾图表”(Junk Charts Blog)的博主,率先对大众传媒领域的数据和图表进行了重要研究,并出版了一本广受赞誉的图书——《数据统治世界》。
第一部分
关于社会大数据的解读 /1
第1 章 法学院院长互发垃圾邮件为哪般 /3
当一天招生办主任
伪造、精挑细选和换牌游戏
正在消失的行为、不限量、学校之间的联系以及部分得分
制造工作数据
问卷生存游戏、秘密协议、有提示的记忆
牵连共犯
法学院逃过经济衰退一劫
塞克斯顿主义
无济于事
第2 章 新的统计数据真的能让我们瘦下来吗 /47
减肥餐的致命弱点
身高体重指数 第一部分
关于社会大数据的解读 /1
第1 章 法学院院长互发垃圾邮件为哪般 /3
当一天招生办主任
伪造、精挑细选和换牌游戏
正在消失的行为、不限量、学校之间的联系以及部分得分
制造工作数据
问卷生存游戏、秘密协议、有提示的记忆
牵连共犯
法学院逃过经济衰退一劫
塞克斯顿主义
无济于事
第2 章 新的统计数据真的能让我们瘦下来吗 /47
减肥餐的致命弱点
身高体重指数
被误用的测量
需要解决的难题
真正的难题在哪里
维持新体重的最后一搏
第二部分
关于营销大数据的解读 /73
第3 章 脱销是如何毁掉一家企业的 /75
盈利与亏损的分界线
网络营销真的那么管用吗
第4 章 个性化销售真的能挽救高朋吗 /97
通过电子邮件检索
失败的乐趣
当米兰达遇见帕特里克
高朋的目标客户到底在哪里
高朋模式需要更多的新客户
高朋的定位
成长的阵痛
第5 章 营销人员为何给你发混合型的推销信息 /119
超特大号(XXL)提包是如何泄露你的秘密的
商家都了解你的什么
传递混合信息的科学性
大数据是救世主吗
第三部分
关于经济大数据的解读 /137
第6 章 要是没人能够申请,这还算新工作吗 /139
找借口
是否需要进行季度性调整
这条鱼变质了
华盛顿过去的那些漂亮的统计数据
克鲁德尔称之为“哎呦”
第7 章 你买鸡蛋花了多少钱 /167
有些你看见了,有些你没看见
对被平均化的不满
谁的核心
钻啊,孩子,钻啊
对平均数的惧怕
第四部分
关于体育大数据的解读 /189
第8 章 你是好教练还是好经理 /191
邀请统计学家进入你家厨房
生活在梦幻游戏之外
首先看一下教练
再看一下教练能力
杰伊为何要忽略自己的建议
被总经理所禁锢
命运
接下来在家里会发生什么
后记 在大数据时代生存下去 /221
[美其名曰] 大数据科学家生活中的三个小时
三天与6 000个词的较量
我们生活在一个任何人都无法摆脱数据的大数据时代。数据越多,人们做出的分析就越多——呈现指数增长;人们分析得越多,制造出的烟幕弹也就越多。因此,保持清醒的头脑就变得非常重要。
大数据是高科技时代的流行语,它大约出现在2010 年。这个行业喜欢将两个词组织起来表达一个概念,就跟史蒂文· 西格尔(Steven Seagal)喜欢用两个词为他的电影命名一样。大数据是“宽
带”、“无线”、“社交媒体”或“网站”这类新概念的后裔。它表示海量的数据,仅此而已。
隶属于被誉为“传奇”的麦肯锡管理咨询公司的麦肯锡全球研究院谈起“大数据”时说道:“这个概念指的是那些规模巨大到通常的数据处理软件都无法捕捉、存储、管理和分析的数据集。”根据2011 年其发表的第一份“大数据”报告,这些研究者所认为的“大”是指每家企业所拥有的数据达到几十个乃至上千太字节(Terabyte)。
我们对“大数据”的理解要比工业标准更全面。我们之所以关心这个问题,不是因为数据越来越多,而是因为对数据的分析越来越多了。我们不得不投入更多的人手以便能更多、更快地分析数据。真正驱动我们这样做的不是数据的数量而是数据的价值。如果我们想深入研究失业、通货膨胀或者其他经济指标,我们可以从美国劳工统计局(the Bureau of Labor Statistics)的网站上下载大量的数据集。如果某位纽约居民对某饭店的“B”健康等级感兴趣,他就可以在纽约市的健康与心理卫生部(Department of Health and Mental Hygiene)的在线数据库中,查阅违规饭店名单。几年前,当丰田汽车被接连曝出存在突然加速的隐患时,我们了解到美国国家公路交通安全管理局(National Highway Traffic Safety Administration)设立了一个开放资源中心,用来存储关于驾驶员安全方面的投诉。自1990 年代初,任何人都可以从雅虎财经、亿创理财(E*Trade)等网站上,下载到股票、共同基金以及其他金融产品的运作情况。有时,甚至连公司也会参与其中,使得一些专有的数据公开化。2006 年,美国最大的在线DVD 租赁商奈飞公司(Netflix)统计并发布了1 亿部电影的分类等级,并征募科学家来改进预测算法。玩家们通过研究统计数字来获得竞争优势,从而将“梦幻体育”(Fantasy Sports)这个游戏推到了一个新的高度。那些过去印刷在纸版书的数据,如今以电子表格的形式在互联网上迅速传播。数据是免费的,又很容易获得,这必然会产生更多的数据分析。
比尔· 盖茨是美国企业成功故事的典型代表。这个绝顶聪明的孩子,大学中途退学,创办自己的软件公司。而且他们公司开发的软件,最终用在了世界90% 的电脑上,比尔也因此赚到了数十亿美元的财富。后来,他退出江湖,将大部分财富捐献给慈善事业。比尔以自己和妻子的名义成立了“比尔& 梅琳达· 盖茨基金会”(Bill & Melinda Gates Foundation)。而且我们很高兴地看到该基金会在许多领域进行了大胆投资。它涉足的领域包括在发展中国家进行疟疾预防,在美国进行中学改革,以及对艾滋病(HIV/AIDS)的研究。盖茨基金会因依靠数据来做出明智的决定,从而赢得了良好的声誉。
但这并不意味着他们不会犯错。盖茨在千禧年开始之际,大力支持小型学校运动,他在全美范围内选出了一些学校,并往这些学校投入了上亿美元。证据A 是当时的一项统计发现:在全美表现最好的学校中,小型学校所占的比例不均衡。例如,在宾夕法尼亚州,按照五年级的阅读成绩评出的前50 所学校中,12% 是小型学校。要是学生的成绩跟学校的规模无关,那么规模大的学校在这50 所名校中所占的比例应该是小型学校的四倍。因此,学校规模被认为是影响教学质量的重要因素——每个年级最多不能超过100 名学生。而盖茨基金会设计的一套改造方案,就是将大型学校拆分成更小、更高效的小型学校。
举例来说,2003 年新学年伊始,在华盛顿的芒特莱克泰勒斯高中(Mountlake Terrace High School)读书的1 800 名学生发现,自己的学校被分成了五所小型学校,学校的名字分别叫做“发现学校”、“改革学校”、“复兴学校”等。不过,校址没有改变,还是在以前的大楼里。盖茨基金会教育处执行主任汤姆· 范德· 阿尔克(Tom Vander Ark)解释说:“大多数穷人家的孩子,不得不进规模大的学校念书,在那里没人认识他们,他们被甩进了一条难以出头的死路……小型学校只不过营造了一个(比大型学校)更好的成长环境。在那里,比较容易形成积极的氛围,产生较高的期望值,也更容易优化课程设置,改进教学质量。”
十年以后,盖茨基金会却发生了彻底的转变,它不再将学校的规模视为解决学生成绩问题的唯一方法,而开始致力于设计富有新意的课程以及提升教学质量。盖茨基金会对学校重组前后的效果进行了细致的调查研究,结果发现,重组后的学校平均成绩没有变得更好,相反,在某些个例中变得更差了。
统计学家霍华德· 魏讷(Howard Wainer)在美国教育考试服务中心(Educational Testing Services)度过了最好的职业生涯。魏讷曾抱怨道:“这数百万美元的错误,本来是可以避免的。”在上面提到的对宾夕法尼亚州的学校进行的同一分析中,魏讷指出,虽然小型学校在前50 所学校中占了12% 的份额,但同时要看到,在后50 所学校中,有18% 是小型学校。简单来说,小型学校在这个分布的两端所占的比例都偏高。不管强调哪一部分数据,分析师们都会得出完全相反的结论。在对飞机晚点的研究中,我们见过类似的情况。问题的关键不在于多少数据被分析,而是被如何分析。
盖茨基金会的故事证明了另外一点:数据分析是一件棘手的事,无论是权威专家还是经验丰富的行家,都不能担保不出错。不管一个人的脑袋瓜多么灵光,总会有一定的犯错范围。这是因为,没有人能够掌握所有信息。“那是在顶尖期刊上发表的”、“别瞎怀疑了,登在这本期刊上的文章难道会有错?!”这样的话经常拿来当做堵住别人嘴巴的借口。生活在大数据时代,只有傻瓜才会采取这种态度。你听说过很多研究,试图在某种疾病与某种基因之间建立联系,比如,帕金森症和高血压。可是,你知道吗?经过同行评审、并得到同行认可的遗传学关联性研究成果,只有30% 能被后续的研究证实,其余的都是假阳性结果(false-positive result)。那些声称是原创性的研究成果,还没来得及出版勘误表,就已经被推翻了。不过,话又说回来,我还是希望专家能发表一些质量稍高的分析报告。
大数据在因果关系这个问题上,实际上没什么好讲的。不过,存在一种普遍的误解,以为海量的数据流能够将隐藏着的“因果关系”冲出地面。请想一下点击流吧,网络营销人员借助点击追踪网络用户,来以此证明网络营销是成功的。顾客点击了一个网页横幅广告或者搜索广告,然后下了订单,这不就足以证明网络营销成功了吗?还需要什么更有力的证据吗?现实情况远非如此简单明了。比方说,我在网上点了一个三星盖世(Galaxy)的横幅广告,随后将这款手机放进了购物车。一个星期后,我观看了他们抨击苹果的广告,觉得很过瘾,于是,我回到三星的网店完成了这笔交易。分析人员在仔细分析网络日志时,不但会漏掉促使我行动的真实原因,而且会犯假阳性错误,将横幅广告跟此次购买行为捆绑在了一起。因为网络营销人员能看到的只有这些。这些小问题在网络分析员的生活中稀松
平常。
大数据不仅意味着有更多好的分析,也意味着会有更多坏的分析。要知道,即便是专家和技术大牛也有掉链子的时候。如果一些不好的数据被心怀叵测的可疑人员添油加醋地利用,事情会变得更糟糕;不过,即便是动机纯洁的分析人员稍有不慎也会上当受骗。在这个充满数据的世界中,消费者得有一副火眼金睛才行啊!
大数据是真实的,而其影响更是广泛的。至少,我们每个人都是数据分析的消费者。因此,我们必须学会成为一个聪明的消费者。我们需要具备的是一种数字直觉。
数字直觉是我在招聘数据分析员时最为看重的一种品质。它能将真正的天才从“还不错”中区别开来。我希望在应聘者身上发现三样东西:一个是数字直觉,其他两样分别是技术能力跟商业思维。有些人可能在编程方面无人能敌,但却没有一点数字直觉;有些人可能是个讲故事的高手,能将一个个的情节串联起来,但是却没有任何数字直觉。数字直觉是第三维度。
我写作这本书的目的是引你上路。本书的每一章都是由近期读到的一则新闻触发灵感而写成的。在这些新闻故事中,有人提出了一些观点,并且援引数据来证明自己的观点。我通过提一些尖锐的问题,检查一致性,数理论证,有时候,也会通过获取并分析相关数据,来展示我是如何验证这些观点的。比如,我会质疑高朋(Groupon)的商业模型有意义吗?一种检测肥胖的新方法能解决我们最大的健康危机吗?克莱蒙德麦肯那学院(Claremont McKenna College)在学院排名游戏中小规模作弊了吗?政府公布的通胀跟失业数据值得信任吗?我们如何评价梦幻体育联盟的表现?当商家通过追踪我们的活动来实现个性化营销时,我们会从中受益吗?
即使是专家有时候也会掉进数据的陷阱中。如果我在这本书里面也犯了此类的错误,那么责任完全在我。要是我没有把观点讲得足够清楚,那就意味着这些数据的分析方法不止一种。我鼓励你们形成自己的观点。只有通过这样的练习实践,才能培养出你自己的数字直觉。
欢迎来到大数据时代,不过,要处处留神才是!