大数据陷阱：需要读懂的10个小故事

⼤数据陷阱：需要读懂的10个⼩故事云顶之弈装备合成表

模拟经营类游戏⾃2011年以来，⼤数据旋风以“迅雷不及掩⽿之势”席卷中国。⽏庸置疑，⼤数据已然成为继云计算、物联⽹之后新⼀轮的技术变⾰热潮，不仅是信息领域，经济、政治、社会等诸多领域都“磨⼑霍霍”向⼤数据，准备在其中逐得⼀席之地。

中国⼯程院李国杰院⼠更是把⼤数据提升到战略的⾼度，他表⽰【1】，数据是与物质、能源⼀样重要的战略资源。从数据中发现价值的技术正是最有活⼒的软技术，在数据技术与产业上的落后，将使我们像错过⼯业⾰命机会⼀样延误⼀个时代。

在这样的认知下，“⼤数据”⽇趋变成⼤家“⽿熟能详”的热词。图1所⽰的是⾕歌趋势（Google Trends）显⽰的有关⼤数据热度的趋势，从图1中可以看到，在未来的数年⾥，“⼤数据”的热度可能还是“⾼烧不退”（图1中虚线为未来趋势）。

在⼤数据热⽕朝天前⾏的路上，多⼀点反思，多⼀份冷静，或许能让这路⾛的更好、更远？例如，2014年4⽉，⼤名⿍⿍的《纽约时报》发表题为《⼤数据带来的⼋个（不，是九个！）问题》（Eight (No, Nine!) Problems With Big Data）”的反思⽂章【2】，其中⽂中的第九个问题，就是所谓的“⼤数据的炒作（we almost forgot one last problem: the hype）”。同样为重量级的英国报刊《财经时报》（Financial Times，FT）也刊发了类似反思式的⽂章“⼤数据：我们正在犯⼤错误吗？（Big data: are w

e making a big mistake?）”【3】

在⼤数据热炒之中，⼤数据的价值是否被夸⼤了？是否存在⼈造的“⼼灵鸡汤”？⼤数据技术便利带来的“收之桑榆”，是否也存在⾃⼰的副作⽤——“失之东隅”——个⼈的隐私何以得到保障？⼤数据热炒的“繁华过尽”，数据背后的巨⼤价值是否还能“温润依旧”？在众声喧哗之中，我们需要冷静审慎地思考上述问题。

太多的“唐僧式”的说教，会让很多⼈感到⽆趣。下⽂分享了10个从“天南地北”收集⽽来的⼩故事（或称段⼦），从这些⼩故事中，可对热炒的⼤数据反思⼀下，这或许能让读者更加客观地看待⼤数据。有些⼩故事与结论之间的对应关系，或许不是那么妥帖，诸位别太较真，读⼀读、乐⼀乐、想⼀想就好！

故事01：⼤数据都是骗⼈的啊——⼤数据预测得准吗？

从前，有⼀头不在风⼝长⼤的猪。⾃打出⽣以来，就在猪圈这个世外桃源⾥美满地⽣活着。每天都有⼈时不时地扔进来⼀些好吃的东西，⼩猪觉得⽇⼦惬意极了！⾼兴任性时，可在猪圈泥堆⾥打滚耍泼。忧伤时，可趴在猪圈的护栏上，看⼣阳西下，春去秋来，岁⽉不争。“猪”⽣如此，夫复何求？根据过往数百天的⼤数据分析，⼩猪预测，未来的⽇⼦会⼀直这样“波澜不惊”地过下去，直到它从⼩猪长成肥猪……在春节前的⼀个下午，⼀次⾎腥的杀戮改变了猪的信念：⼤数据都是骗⼈的啊……

惨叫嘎然⽽⽌。

图2 ⼤数据预测：都是骗⼈的

这则“⼈造寓⾔”是由《MacTalk·⼈⽣元编程》⼀书作者池建强先⽣“杜撰”⽽成的【4】。池先⽣估计是想⽤这个搞笑的⼩寓⾔“⿊”⼀把⼤数据。

我们知道，针对⼤数据分析，⽆⾮有两个⽅⾯的作⽤：（1）⾯向过去，发现潜藏在数据表⾯之下的历史规律或模式，称之为描述性分析（Deive Analysis）；（2）⾯向未来，对未来趋势进⾏预测，称之为预测性分析（Predictive Analysis）。把⼤数据分析的范围从“已知”拓展到了“未知”，从“过去” ⾛向 “将来”，这是⼤数据真正的⽣命⼒和“灵魂” 所在。

那头“悲催”的猪，之所以发出“⼤数据都是骗⼈的啊”呐喊，是因为它的得出了⼀个错误的“历史规律”：根据以往的数据预测未来，它每天都会过着“饭来张⼝”的猪⼀般的⽣活。但是没想到，会发⽣“⿊天鹅事件”——春节的杀猪事件。

⿊天鹅事件（Black Swan Event) 通常是指，难以预测的但影响甚⼤的事件，⼀旦发⽣，便会引起整个局⾯连锁负⾯反应甚⾄颠覆。读者可阅读纳西姆·尼古拉斯·塔勒布（Nassim Nicholas Taleb）所著的畅销书《⿊天鹅》，来获得对“⿊天鹅事件”更多的理解。

其实，我们不妨从另外⼀个⾓度来分析⼀下，这个搞笑的⼩寓⾔在“⿊”⼤数据时，也有失败的地⽅。通过阅读知道，舍恩伯格教授在其著作《⼤数据时代》的第⼀个核⼼观点就是：⼤数据即全数据（即n=All，这⾥n为数据的⼤⼩），其旨在收集和分析与某事物相关的“全部”数据，⽽⾮仅分析“部分”数据。

那头⼩猪，仅仅着眼于分析它“从⼩到肥”成长数据——局部⼩数据，⽽忽略了“从肥到没”的历史数据。数据不全，结论⾃

那头⼩猪，仅仅着眼于分析它“从⼩到肥”成长数据——局部⼩数据，⽽忽略了“从肥到没”的历史数据。数据不全，结论⾃然会偏，预测就会不准。

要不怎么会有这样的规律总结呢：“⼈怕出名，猪怕壮”。猪肥了，很容易先被抓来杀掉。这样的“猪”⾎泪史，天天都上演的还少吗？上⾯的⼩寓⾔，其实是告诉我们：数据不全，不仅坑爹，还坑命啊！

那么，问题来了，⼤数据等于全数据（即n=All），能轻易做到吗？

故事02：颠簸的街道——对不起，“n=All”只是⼀个幻觉

波⼠顿市政府推荐⾃⼰的市民，使⽤⼀款智能⼿机应⽤——“颠簸的街道（Street Bump，⽹站访问链接：

/）”。这个应⽤程序，可利⽤智能⼿机中内置的加速度传感器，来检查出街道上的坑洼之处——在路⾯平稳的地⽅，传感器加速度值⼩，⽽在坑坑洼洼的地⽅，传感器加速度值就⼤。热⼼的波⼠顿市民们，只要下载并使⽤这个应⽤程序后，开着车、带着⼿机，他们就是⼀名义务的、兼职的市政⼯⼈，这样就可以轻易做到“全民皆市政”。市政厅全职的⼯作⼈员就⽆需亲⾃巡查道路，⽽是打开电脑，就能⼀⽬了然的看到哪些道路损坏严重，哪⾥需要维修，如图3所⽰。

波⼠顿市政府也因此骄傲地宣布，“⼤数据，为这座城市提供了实时的信息，它帮助我们解决问题，并提供了长期的投资计划”。著名期刊《连线》（Wired）也毫不吝啬它的溢美之词【5】：这是众包（Crowdsourcing）改善政府功能的典范之作。

众包是《连线》杂志记者Jeff Howe于2006年发明的⼀个专业术语，⽤来描述⼀种新的商业模式。它以⾃由⾃愿的形式外包给⾮特定的⼤众⽹络的做法。众包利⽤众多志愿员⼯的创意和能⼒——这些志愿员⼯具备完成任务的技能，愿意利⽤业余时间⼯作，满⾜于对其服务收取⼩额报酬，或者暂时并⽆报酬，仅仅满⾜于未来获得更多报酬的前景。

然⽽，从⼀开始，“颠簸的街道”的产品设计就是有偏的（bias），因为使⽤这款App的对象，“不经意间”要满⾜3个条件：（1）年龄结构趋近年轻，因为中⽼年⼈爱玩智能⼿机的相对较少；（2）使⽤App的⼈，还得有⼀部车。虽然有辆车在美国不算事，但毕竟不是每个⼈都有；（3）有钱，还得有闲。

前⾯两个条件这还不够，使⽤者还得有“闲⼼”，想着开车时打开“颠簸的街道”这个App。想象⼀下，很多年轻⼈的智能⼿机安装的应⽤程序数量可能两位数以上，除了较为常⽤的社交软件如Facebook或Twitter（中国⽤户⽤得较多的是微博、等）记得开机运⾏外，还有什么公益软

件“重要地”⼀开车就记得打开？

“颠簸的街道”的理念在于，它可以提供 “n=All（所有）”个坑洼地点信息，但这⾥的“n=All（所有）”也仅仅是满⾜上述3个条件的⽤户记录数据，⽽⾮“所有坑洼点”的数据，上述3个条件，每个条件其实都过滤了⼀批样本，“n=All”注定是不成⽴的。在⼀些贫民窟，可能因为使⽤⼿机的、开车的、有闲⼼的App⽤户偏少，即使有些路⾯有较多坑洼点，也未必能检测出来。

《⼤数据时代》的作者舍恩伯格教授常⽤“n=All”，来定义⼤数据集合。如果真能这样，那么就⽆需采样了，也不再有采样偏差的问题，因为采样已经包含了所有数据。

畅销书《你的数字感：⾛出⼤数据分析与解读的误区》（Numbersense: How to Use Big Data to Your Advantage）的作者、美国纽约⼤学统计学教授Kaiser Fung，就毫不客⽓地提醒⼈们，不要简单地假定⾃⼰掌握了所有有关的数据：“N=All（所有）”常常仅仅是对数据的⼀种假设，⽽不是现实。

微软-纽约⾸席研究员Kate Crawford也指出，现实数据是含有系统偏差的，通常需要⼈们仔细考量，

才有可能到并纠正这些系统偏差。⼤数据，看起来包罗万象，但“n=All”往往不过是⼀个颇有诱惑⼒的假象⽽已。

“n=All”，梦想很丰满，但现实很⾻感！

但即使具备全数据，就能轻易到隐藏于数据背后的有价值信息吗？请接着看下⾯的故事。

故事03：醉汉路灯下钥匙——⼤数据的研究⽅法可笑吗？

⼀天晚上，⼀个醉汉在路灯下不停地转来转去，警察就问他在什么。醉汉说，我的钥匙丢了。于是，警察帮他⼀起，结果路灯周围了⼏遍都没到。于是警察就问，你确信你的钥匙是丢到这⼉吗？醉汉说，不确信啊，我压根就不知道我的钥匙丢到哪⼉。警察怒从⼼中来，问，那你到这⾥来什么？醉汉振振有辞：因为只有这⾥有光线啊！

这个故事很简单，看完这个故事，有⼈可能会感叹醉汉的“幼稚”、“可笑”。但不好笑的是，“乌鸦笑猪⿊，⾃⼰不觉得”，这个故事也揭⽰了⼀个事实：在⾯临复杂问题时，我们的思维⽅式也常同这个醉汉所差⽆⼏，同样也是先在⾃⼰熟悉的范围和领域内寻答案，哪怕这个答案和⾃⼰的领域“相隔万⾥”！

还有⼈甚⾄认为，醉汉钥匙的⾏为，恰恰就是科学研究所遵循的哲学观。前⼈的研究成果，恰是是

后⼈研究的基⽯，也即这则故事中的“路灯”。到路灯下钥匙，虽看来有些荒唐，但也是“⽆奈之下”的明智之举。

数据那么⼤，价值密度那么低，你也可以去分析，但从何分析起？⾸先想到的⽅法和⼯具，难道不是当下你最熟悉的？⽽你最熟悉的，就能确保它就是最好的吗？

沃顿商学院著名教授、纽约时报最佳畅销书作者乔纳伯杰（Jonah Berger）从另外⼀个⾓度，解读这个故事【6】：在这⾥，浩瀚的⿊夜就是如同全数据，“钥匙”就好⽐是⼤数据分析中我们要到的价值⽬标，他认为，“路灯”就好⽐我们要达到这个⽬标的测量“标尺”，如果这个标尺的导向有问题，顺着这个标尺导引，想要到⼼仪的“钥匙”，是⾮常困难的！在我们痴迷于某项⾃⼰熟悉的特定测量标尺之前，⼀定要提前审视⼀下，这个测量标尺是否适合帮助我们到那把“钥匙”，如果不能，赶快换⼀盏“街灯”吧！

如果在⿊暗中丢失的钥匙，是⼤数据中的价值，那这个价值也太稀疏了吧。下⾯的故事，让我们聊聊⼤数据的价值。

故事04：园中有⾦不在⾦——⼤数据的价值

⼈们在描述⼤数据时，通常表明其具备4个V特征，即4个以V为⾸字母的英⽂描述：Volume（体量⼤）

、Variety（模态多）、Velocity（速度快）及Value（价值⼤）。前三个V，本质上，是为第四个V服务的。试想⼀下，如果⼤数据⾥没有我们希望得到的价值，我们为何还⾟⾟苦苦这么折腾前3个V？

英特尔中国研究院院长吴⽢沙先⽣说，“鉴于⼤数据信息密度低，⼤数据是贫矿，投⼊产出⽐不见得好。”《纽约时报》著名科技记者Steve Lohr，在其采访报道“⼤数据时代（The Age of Big Data）”中表明【7】，⼤数据价值挖掘的风险还在于，会有很多的“误报”发现，⽤斯坦福⼤学统计学教授Trevor Hastie的话来说，就是“在数据的⼤⼲草垛中，发现有意义的“针”，其困难在于“很多⼲草看起来也像针（The trouble with seeking a meaningful needle in massive haystacks of data is that “many bits of straw look like needles）”

针对⼤数据的价值，李国杰院⼠借助中国传统的寓⾔故事《园中有⾦》，从另外⼀个⾓度，说明⼤数据的价值，寓⾔故事是这样的【8】：

有⽗⼦⼆⼈，居⼭村，营果园。⽗病后，⼦不勤耕作，园渐荒芜。⼀⽇，⽗病危，谓⼦⽈：园中有⾦。⼦翻地寻⾦，⽆所得，甚怅然。是年秋，园中葡萄、苹果之属皆⼤丰收。⼦始悟⽗⾔之理。

⼈们总是期望，能从⼤数据中挖掘出意想不到的“⼤价值”。可李国杰院⼠认为【8】，实际上，⼤数据的价值，主要体现在它的驱动效应上，⼤数据对经济的贡献，并不完全反映在⼤数据公司的直接收⼊上，应考虑对其他⾏业效率和质量提⾼的贡献。

⼤数据是典型的通⽤技术，理解通⽤技术的价值，要懂得采⽤“蜜蜂模型”：蜜蜂的最⼤效益，并⾮是⾃⼰酿造的蜂蜜，⽽是蜜蜂传粉对农林业的贡献——你能说秋天的累累硕果，没有蜜蜂的⼀份功劳？

回到前⽂的⼩故事，⼉⼦翻地的价值，不仅在于翻到园中的⾦⼦，更是在于翻地之后，促进了秋天果园的丰收。在第03个⼩故事中，醉汉⿊暗中寻的钥匙，亦⾮最终的价值，通过钥匙打开的门才是。

对于⼤数据研究⽽⾔，⼀旦数据收集、存储、分析、传输等能⼒提⾼了，即使没有发现什么普适的规律或令⼈完全想不到的新知识，也极⼤地推动了诸如计算机软硬件、数据分析等⾏业的发展，⼤数据的价值也已逐步体现。

李国杰院⼠认为，我们不必天天期盼奇迹出现，多做⼀些“朴实⽆华”的事，实际的进步就会体现在扎扎实实的努⼒之中。⼀些媒体总喜欢宣传⼀些抓⼈眼球的⼤数据成功案例。但从事⼤数据⾏业的⼈⼠，应保持清醒的头脑：⽆华是常态，精彩是⽆华的质变。

如果把“⼤数据”⽐作农夫⽗⼦院后的那⽚⼟地，那么⼟地的⾯积越⼤，会不会能挖掘出的“⾦⼦”就越多呢？答案还真不是，下⾯的故事我们说说⼤数据的⼤⼩之争。

故事05：盖洛普抽样的成功——⼤⼩之争，“⼤”数据⼀定胜过⼩抽样吗？

1 936年，民主党⼈艾尔弗雷德兰登（Alfred Landon）与时任总统富兰克林·罗斯福（Franklin Roosev

elt）竞选下届

总统。《⽂学⽂摘》（The Literary Digest）这家颇有声望的杂志承担了选情预测的任务。之所以说它“颇有声望”，是因为《⽂学⽂摘》曾在1920年、1924年、1928年、1932年连续4届美国总统⼤选中，成功地预测总统宝座的归属。1936年，《⽂学⽂摘》再次雄赳赳、⽓昂昂地照办⽼办法——民意调查，不同于前⼏次的调查，这次调查把范围拓展得更⼴。当时⼤家都相信，数据集合越⼤，预测结果越准确。《⽂学⽂摘》计划寄出1000万份调查问卷，覆盖当时四分之⼀的选民。最终该杂志在两个多⽉内收到了惊⼈的240万份回执，在统计完成以后，《⽂学⽂摘》宣布，艾尔弗雷德兰登将会以55⽐41的优势，击败富兰克林·罗斯福赢得⼤选，另外4%的选民则会零散地投给第三候选⼈。然⽽，真实的选举结果与《⽂学⽂摘》的预测⼤相径庭：罗斯福以61⽐37的压倒性优势获胜。让《⽂学⽂摘》脸上挂不住的是，新民意调查的开创者乔治·盖洛普（George Gallup），仅仅通过⼀场规模⼩得多的问卷——⼀个3000⼈的问卷调查，得出了准确得多的预测结果：罗斯福将稳操胜券。盖洛普的3000⼈“⼩”抽样，居然挑翻了《⽂学⽂摘》240万的“⼤”调查，实在让专家学者和社会⼤众跌破眼镜。

显然，盖洛普有他独到的办法，⽽从数据体积⼤⼩的⾓度来看，“⼤”并不能决定⼀切。民意调查是基于对投票⼈的⼤范围采样。这意味着调查者需要处理两个难题：样本误差和样本偏差。

在过去的200多年⾥，统计学家们总结出了在认知数据的过程中存在的种种陷阱（如样本偏差和样本

误差）。如今数据的规模更⼤了，采集的成本也更低了，“⼤数据”中依然存在⼤量的“⼩数据”问题，⼤数据采集同样会犯⼩数据采集⼀样的统计偏差【3】。我们不能掩⽿盗铃，假装这些陷阱都已经被填平了，事实上，它们还都在，甚⾄问题更加突出。

盖洛普成功的法宝在于，科学地抽样，保证抽样的随机性，他没有盲⽬的扩⼤调查⾯积，⽽是根据选民的分别特征，根据职业、年龄、肤⾊等在3000⼈的⽐重，再确定电话访问、邮件访问和街头调查等各种⽅式所在⽐例。由于样本抽样得当，就可以做到“以⼩见⼤”、“⼀叶知秋”。

《⽂学⽂摘》的失败在于，取样存在严重偏差，它的调查对象主要锁定为它⾃⼰的订户。虽然《⽂学⽂摘》的问卷调查数量不少，但它的订户多集中在中上阶层，样本从⼀开始就是有偏差的（sample bias），因此，推断的结果不准，就不⾜为奇了。⽽且民主党⼈艾尔弗雷德兰登的⽀持者，似乎更乐于寄回问卷结果，这使得调查的错误更进了⼀步。这两种偏差的结合，注定了《读者⽂摘》调查的失败。

我们可以类⽐⼀下《⽂学⽂摘》的调查模式，试想⼀样，如果在中国春运来临时，在⽕车上调查，问乘客是不是买到票了，即使你调查1000万⼈，这可是⼤数据啊，结论毫⽆意外地是都买到了，但这个结果⽆论如何都是不科学的，因为样本的选取是有偏的。

当然，采样也是有缺点的，如果采样没有满⾜随机性，即使百分之⼏的偏差，就可能丢失“⿊天鹅事件

”的信号，因此在全数据集存在的前提下，全数据当然是⾸选（但从第02故事中，我们可以看到，全数据通常是⽆法得到的）。对针对数据分析的价值，英特尔中国研究院院长吴⽢沙先⽣给出了⼀个排序：全数据>好采样数据>不均匀的⼤量数据。

⼤数据分析技术运⽤得当，能极⼤地提升⼈们对事物的洞察⼒（insight），但技术和⼈谁在决策（decision-making）中起更⼤作⽤？在下⾯的“点球成⾦”⼩故事，我们聊聊这个话题。

故事06：点球成⾦——数据流PK球探，谁更重要？

《点球成⾦》(Moneyball)⼜是⼀例数据分析的经典故事：

长期以来，美国职业棒球队的教练们依赖惯例规则是，依据球员的“击球率（Batting Average, AVG)”（其值等于安打数／打数），来挑选⼼仪的球员。⽽奥克兰“运动家球队”的总经理⽐利⽐恩（Billy Beane）却另辟新径，采⽤上垒率指标(On-Base Percentage, OBP)来挑选球员，OBP代表⼀个球员能够上垒⽽不是出局的能⼒。采⽤上垒率来选拔⼈才，并⾮毫⽆根据。通过精细的数学模型分析，⽐利⽐恩发现，⾼“上垒率”与⽐赛的胜负存在某种关联

（corelation），据此他提出了⾃⼰的独到见解，即⼀个球员怎样上垒并不重要，不管他是地滚球还是三跑垒，只要结果是上垒就够了。在⼴泛的批评和质疑声中，⽐恩通过⾃⼰的数据分析，创⽴了“赛伯计量学”（Sabermerrics）。

据此理论，⽐恩依据“⾼上垒率”选取了⾃⼰所需的球员，这些球员的⾝价远不如其他知名球员，但⽐利⽐恩却能带领这些球员在2002年的美国联盟西部赛事中夺得冠军，并取得了20场连胜的战绩。

这个故事讲得是数量化分析和预测对棒球运动的贡献，吴⽢沙先⽣认为，它在⼤数据背景下出现了传播的误区：

第⼀，它频繁出现在诸如舍恩伯格《⼤数据时代》之类的图书中，其实这个案例并⾮⼤数据案例，⽽是早已存在的数据思维和⽅法。在“点球成⾦”案例中的数据，套⽤⼤数据的4V特征，基本上，⽆⼀符合。

第⼆，《点球成⾦》⽆论是⼩说，还是拍出来的同名电影，都刻意或⽆意忽略了球探的作⽤。从读者/观众的⾓度来看，

第⼆，《点球成⾦》⽆论是⼩说，还是拍出来的同名电影，都刻意或⽆意忽略了球探的作⽤。从读者/观众的⾓度来看，奥克兰“运动家球队”的总经理⽐利·⽐恩完全运⽤了数据量化分析取代了球探。⽽事实上，在运⽤这些数据量化⼯具的同时，⽐恩也增加了球探的费⽤，“军功章⾥”有数据分析的⼀半，也有球探的⼀半。

⽬前的⼤数据时代，就有这么两个流派，⼀派是技术主导派，他们提出“万物皆数”，要么数字化，要

么死亡（孙正义在对⽇本企业界的演讲上所⾔），他们认为技术在决策中占有举⾜轻重地作⽤。另⼀派是技术为辅派，他们认为，技术仅仅是为⼈服务的，属于为⼈所⽤的众多⼯具的⼀种，不可夸⼤其作⽤。

针对《点球成⾦》这个案例，⽐利⽐恩的拥趸者就属于“数据流党”，⽽更强调球探作⽤的则归属于“球探党”。

球探党Bill Shanks在其所著的《球探的荣耀：论打造王者之师的最勇敢之路》（Scout’s Honor: The Bravest Way To Build A Winning Ballteam）中【9】，对数据流党的分析做出了强有⼒地回应。他认为，球探对运动员定性指标(如竞争性、抗压⼒、意志⼒，勤奋程度等)的衡量，是少数结构化数据（如上垒率等）指标⽆法量化刻画的。

和《点球成⾦》观点针锋相对的是，Bill Shanks更认可球探的作⽤，他把球探的作⽤命名为“勇⼠”哲学。对于勇⼠来说，数据分析只是众多“⼑棍棒”兵刃中的⼀种，⽆需奉之如圭臬，真正能“攻城略地”的还是需要勇⼠。⽐如说，运动家棒球队虽然在数据分析的指导下，获得了震惊业界的好成绩，然⽽他们并没有取得季后赛的胜利，也没有夺取世界冠军，这说明，数据分析虽重要，但⼈的作⽤更重要！

从第01故事的分析中，我们知道，⼤数据分析的第⼀层作⽤就是，⾯向过去，发现潜藏在数据表⾯之

牛年快乐

下的历史规律或模式，也就是说达到描述性分析。⽽为了让读者相信数据分析的能⼒，灌输⼀些“⼼灵鸡汤（或称洗脑）”，是少不了的，哪怕它是假的！

故事07：啤酒和尿布：经典故事是伪造的，你知道吗？

这是⼀个关于零售帝国沃尔玛的故事。在⼀次例⾏的数据分析之后，研究⼈员突然发现：跟尿布⼀起搭配购买最多的商品，竟是啤酒！尿布和啤酒，听起来风马⽜不相及，但这是对历史数据进⾏挖掘的结果，反映的是数据层⾯的规律。这种关系令⼈费解，但经过跟踪调查，研究⼈员发现，⼀些年轻的爸爸常到超市去购买婴⼉尿布，有30％~40％的新爸爸，会顺便买点啤酒犒劳⾃⼰。随后，沃尔玛对啤酒和尿布进⾏了捆绑销售，不出意料，销售量双双增加。

上⾯这个案例，出⾃于涂⼦沛先⽣的所著的⼤数据畅销书《数据之巅》，在这个案例中，要情节有情节，要数据，有数据，誓⾔旦旦，不容你置疑。但是，这个故事虽经典，但是让你意想不到的是：

1.陈建斌私生子

案例是编造的

这个经典的“啤酒和尿布” (Beer and Diapers)的案例，不仅是《⼤数据》类图书的常客，事实上，它更是⽆数次流连

于“数据挖掘”之类的书籍中，特别是⽤来解释“关联规则（Association Rule）”的概念，更是“居家旅⾏，必备之良药（周星驰语）”。当前，基本上所有讲⼤数据应⽤，都会捎带讲上这个经典案例，要求⼤家多研究“相关性”，少研究因果关系！但实在扫兴的是，这个案例仅是⼀碗数据分析的“⼼灵鸡汤”——听起来很爽，但信不得！

•

实践是检验真理的唯⼀标准。如果这个故事是真的，按理说，应该给超级市场以⽆限启发才对，可实际上，不管是中国，还是在美国，在超市⾥⾯观察⼀下，就会发现，根本没有类似的物品摆放，相近的都很少。

•

故事性强，事出有因。据吴⽢沙先⽣透露，它是Teradata公司⼀位经理编出来的“故事”，⽬的是让数据分析看起来更有⼒，更有趣，⽽在历史上从没有发⽣过，感兴趣的读者可以⾃⼰参阅⽂献。但公平地讲，这个故事对数据挖掘的普及意义重⼤，仅从教育意义上看，仍不失为⼀个好故事。

孙中山的成就

2.相关性并⾮什么⼤事

即便真的有这个案例，也不说明数据分析出来的“相关性”，有什么特别的神奇之处。舍恩伯格教授的

《⼤数据时代》核⼼观点之⼀就是：趾⾼⽓扬的因果关系光芒不再，卑微的相关关系将被“翻⾝做主⼈”，知道“是什么”就够了，没必要知道“为什么”。但需要我们更为深⼊了解的事实是：

机动车c1科目一考试•

大数据陷阱：需要读懂的10个小故事

发布评论取消回复

最近发表

热门文章

标签列表