我读《对“伪大数据”说不》


  我们正处在大数据成为流行词汇、进入高层决策视野、影响百姓日常生活的时代。很多人在关注大数据、谈论大数据、应用大数据、分析大数据,在不知不觉中把自己变成了数字人、数据人。

  数字和数据不是一回事么?对。数字指的是我们生活在0和1组成的数字化时代,数据指的是我们不得不接受来自四面八方的各种数据的影响。

  因此,当中国人民大学出版社王立军先生请我在他们出版的一大堆新书中挑选一本以便馈赠的时候,我选择了这本《对“伪大数据”说不:走出大数据分析与解读的误区》。我想知道,在这本书的美国作者冯启思(Kaiser Fung)眼里,什么是“伪大数据”?它是怎么形成的?如何鉴别大数据的真伪?以及如何对大数据进行正确的分析与解读?

  还好,这些问题通过本书的阅读,都有了答案。

  冯启思认为,我们生活在一个任何人都无法摆脱数据的大数据时代,因为数据是免费的,又很容易获得,所以必然会产生更多的数据分析。但是由于没有人能够掌握所有的信息,所以对数据的分析总会出错。即使是专家,有时候也会掉进数据陷阱中。大数据不仅意味着有更多好的分析,也意味着会有更多坏的分析。明目张胆的欺诈虽然很难被侦测到,不过,它们经常会因为不一致而暴露出来。对于数据的消费者而言,必须处处留神,必须具备能够辨别真伪数据与分析的火眼金睛,即具备一种数字直觉。

  冯启思认为,数字直觉是一种与生俱来的直觉,它有别于技术能力和商业思维。有些人可能在编程方面无人能敌,却可能没有数字直觉;有些人可能很会讲故事,但也可能没有数字直觉;有些具备数字直觉的人很快就能从迷宫中找到从A到Z的通路,而有些不具备这一直觉的人则可能会困在迷宫里,永远也走不出来。

  本书是通过对社会大数据、营销大数据、经济大数据和体育大数据这四个方面的解读,以讲故事或者说列举实例的方式,来完成作者大数据分析观的阐述的。

  什么是“伪大数据”呢?书中没有给出明确的定义。但通过作者的阐述,我们大体可以得出这样的结论,所谓“伪大数据”,包括这么几个方面:一是指数据虚假,比如美国密歇根大学法学院,通过替换足够数量的学生,以改变中位数的方式,达到学院排名上升的目的。比如通过中位数插补技术填补数据缺失所导致的数据失真。二是指分析片面。比如如果单纯看1987年航班晚点率的话,美国西部航空公司仅为11%,是最低的,但它却在1991年宣告破产,而阿拉斯加航空公司晚点率虽然达13%,但它在美国西海岸的五个机场的晚点率却都低于美国西部航空公司。三是评价方法的人为操控。没有哪个主观性标准能摆脱被操纵的命运,而大数据的存在恰恰加剧了这种危险。评级公式越复杂,数字被篡改的机会就越多。四是统计模型的瑕疵。统计模型与牛顿的重力模型完全不同。牛顿的重力模型中,方向朝下的力量使得树上的苹果总会掉下来,无论昨天、今天还是明天。但在统计模型中,却远没有这么简单。比如你今天带了一把绿伞,不能肯定明天你买的下一把伞也一定是绿色的。因为二者之间不存在必然的因果关系。换句话说,我们几乎不可能把千变万化的人类行为提炼归纳进一套公式里面,假设并不必然成立。

  “伪大数据”是怎么形成的呢?上面已经部分阐述了形成原因,我们重点再来看看航空公司晚点率的分析。阿拉斯加航空公司在美国西海岸的旧金山、西雅图、洛杉矶、圣迭戈、菲尼克斯等五个机场的晚点率分别为17%、14%、11%、9%和5%,平均晚点率为13%;美国西部航空公司在上述五个机场的晚点率则分别为29%、23%、14%、15%和8%,平均晚点率为11%。为什么阿拉斯加航空公司在五个机场的晚点率都低于美国西部航空公司,但总体晚点率却比美国西部航空公司高出2个百分点?原来,美国西部航空公司在菲尼克斯机场起降次数为4840次,占6438总起降次数的75。2%,而菲尼克斯机场的晚点率仅为8%,明显低于11%的总体晚点率,对该公司的总体晚点率产生了拉低作用。而阿拉斯加航空公司在西雅图机场起降次数为1841次,占3274总起降次数的56。2%,而西雅图机场的晚点率高达14%,高于13%的总体晚点率,明显对该公司的总体晚点率产生了拉高作用。可见,正是由于这两个占比较高的机场所产生的方向不同的过度加权,使得整体与局部的比较出现了较大反差。在这种情况下,如果只看总体晚点率,而不具体分析比较各个机场的表现,就可能会得出错误的结论。

  如何鉴别大数据的真伪、避免让分析变成烟幕弹呢?书中没有集中归纳。从散见于书中的思想火花来看,主要可以注意以下几个方面:一是不从表面上判断已公布的数据;二是知道该问什么问题;三是研究原始数据;四是能敏锐地发现被篡改的数据;五是能够认出哪一部分分析是建立在数据之上的,哪一部分仅仅是一种理论;六是不轻信统计模型。

  如何对大数据进行正确的分析与解读呢?书中也没有进行集中归纳。不过从字里行间来分析,作者的方法主要有两个:一是尽可能寻找合适的证据。书中引用了统计学家的经典格言:“找不到证据,并非证据不存在。”二是正确运用假设。大数据的世界需要更多好假设,更少坏假设。

  全书比较精彩的章节是前言和第二部分关于营销大数据的解读。第四部分体育大数据因为讲的是中国人普遍不大熟悉的棒球,所以可读性较差。第三部分经济大数据实际只涉及了失业率和CPI的统计,除了让我们知道美国的常规政府统计也有遭人质疑之处外,也乏善可陈。而第一部分社会大数据,法学院排名的故事还有些可读性,减肥的故事就有些不知所云了。

  全书一共讲了十多个与大数据应用相关的大大小小的故事。其中讲得比较透彻的是对团购公司高朋赢利模式的分析,讲得虽然简单但能给人以启发的是对图书购买人群定位的分析。

  在作者看来,由于团购公司的诞生,向消费者发放优惠券,吸引了客源,激活了商家的客流量,并让消费者以低于平时的价格购买了相关商品和服务,从而营造了三方共赢的局面,这只是表面现象。他认为,团购公司的赢利,来自于商家;消费者少付出的支出,也本该是商家的收入。因此,看似三方共赢,实际对有的商家而言却可能是顾客盈门情况下的生意下滑,因为如果没有增加多少新顾客而还是那些老顾客的话,就意味着商家不仅因为优惠券的发放,导致单笔交易收入的减少,而且还要额外支付团购公司的中介费用。即对消费者越有利,对商家的消耗就越多。如果没有团购中介,为其支付的利润本来应该是商家的;如果不对消费者搞优惠活动而消费者又没有减少多少的话,商家也可以赚到更多的钱。

  我倒是觉得不能因此就否定中介公司的作用。团购公司并不是空手套白狼,它也需要付出劳动,需要雇用员工来从事相关工作。工作量越大,需要的技术含量越高,它所需要为员工提供的薪酬与研发支出等也会越高。所以,三方共赢,真正获益的是消费者,他们确实从优惠券的使用中减少了开支。不过,消费者的消费支出恰恰是商家和中介的收入来源,消费者是商家和中介的衣食父母,消费者的获益也只是相对的。

  关于图书购买人群定位,书中提供了一个很好的参考路径。作者举例说,假如亚马逊希望你从他们那里购买某图书,但你的消费习惯却是逛实体书店,对你这样一个没有客户购买记录的人,亚马逊该如何定位呢?他们会采用迂回策略来找到你。这个迂回策略就来自于对已有顾客消费记录的分析。比如年龄、区域、性别、购书倾向、用网习惯、网购习惯等等,然后对共同特征进行画像。如果你刚好具备这些共同特征,那就被商家锁定为这本图书的潜在顾客了。一旦你浏览亚马逊网站,他们就会向你推荐这本书。