数据也会说谎：隐藏在统计数据中的那些小把戏

2018-11-04 12:40:34 来源：网络整理

文|邻章

“世界上有三种谎言：谎言、弥天大谎和统计数据！”——美国统计专家达莱尔·哈夫在其传世之作《统计数据会说谎》中如是说。对于统计数据，我们似乎对其有着某种天然的信任感，认为其代表着客观公正，数据不会说谎乃至成为了我们的潜意识，在许多时候成为了我们评判事物好坏与否的标准。但现实的悖论在于，许多聪明的人或机构就是抓住了我们对于数据的这种天然的信任感做起了文章，通过各种统计手段得出各种或好或坏的各种数据，进而影响普通消费者的判断。

的确，在日常生活中，我们时常也能看到，在那些竞争激烈的行业，不同的统计机构往往会在同一时间给出相互打架的数据结论，造就同一行业中同时出现多个第一的闹剧，这在过往的外卖、移动支付、共享单车、智能手机等市场中都已是屡见不鲜。但常识告诉我们，同一行业中同时出现两个第一，是概率极小乃至是不可能事件。

为何这种统计闹剧屡见不鲜？

其中原因多种多样，往小了说有统计口径差异，基数偏差、数据粉饰、夸大等等，而往大了说那么就有可能是故意为之的数据造假，以求达到不可告人的目的。诚如政治家格罗夫纳（C.H.Grosvenor）所言：“数据本身不会说谎，但说谎者需要数据。”

所以对于我们而言，在以统计数据作为决策依据时，需要擦亮自己的眼睛，预防辨别出统计数据中时常出现的一些小把戏，选择具备真正有意义的统计数据来做参考。

一、采用不同统计口径的统计数据

不同统计口径造就的数据差异，往往在市场份额、销量这类统计中时常出现，表现得颇为明显。诸如在过往的国产厂商在国内智能手机市场销量谁是第一的竞争中，甲乙两家厂商都宣称自己是当年的市场销量第一，并且拉出了不同的市场调研机构给出的结论来站台背书。

的确，从不同统计机构给出的数据来说，这两家都做到了各自的第一。但问题的有趣之处在于甲乙两家厂商拉出来给自站台背书的统计机构所采用的统计口径却不尽相同，有的采用的是Sell-in（生产商卖给零售商的商品数量）的统计口径，有的采用的则是Sell-out（零售商卖给顾客的商品数量）的统计口径。

而从实际意义或者价值来说，或许把东西销售到用户手中的统计会更具价值。而这种由于统计口径造成的结果差异或者是数据打架现象，不仅在智能手机市场的销量统计中存在，在其他许多行业也同样存在。

二、忽略规模基数的统计数据

在日常生活中我们更为容易遇到、也更容易误导我们的一种统计小把戏是忽略规模基数差异的统计数据。

诸如在许多行业中，用户会把平台的顾客投诉量作为一个重要考察指标，也或正因如此，一些机构也做起了聚合用户各类投诉而后发布不同行业用户投诉排行榜的事情。但有时候观察这些机构发布的这类投诉数据排行榜，我们却能发现他们发布的这类投诉排行榜其实对于用户的决策而言，并不能带来有任何实际意义的参考价值，反而有可能会把用户带进坑里。原因在于这种投诉量排行榜忽略了一个统计中最为基本的要素——用户基数差异。

显而易见的一个道理是：不同行业不同品牌、平台，其用户规模各不相同，有的平台用户规模可能会很大，而有的平台用户规模则很小。但在众口难调的现实下，显然用户规模更大的平台，往往就会在这类数量的统计中更为吃亏。

但从实际的整体概率来说，我们却能发现用户规模高的平台，其服务水准、用户满意度、平台安全性可能反而会更高。所以从这个层面来说，如果要真的去考量一个品牌、平台的服务水平、产品质量，其实更为合理负责的统计方式不是去统计他的用户投诉量，而应该是计算用户的投诉率。

诸如在去年21CN聚投诉发布的2017年十大行业“金虾奖”这份榜单中，我们就能明显发现采用用户投诉量的统计方式所带来的用户误导。在这份榜单中，淘宝、天猫、微信支付、支付宝、苹果、海信、玖富等不同行业的领导品牌均登上了这份黑榜。但这份忽略平台用户规模基数差异的榜单，其实并不具备任何说服力。

数据也会说谎：隐藏在统计数据中的那些小把戏

以淘宝、天猫的数据为例，我们看到在聚投诉平台这份“金虾奖”榜单中，用户投诉量是5707件。这个数据初看之下给人传递的感觉是投诉量的确还是蛮多的，但若是考虑到淘宝天猫累计超6亿的用户规模，那么以此投诉量计算投诉率，可以得出实际上淘宝天猫的用户投诉率仅为0.00000951%。而不仅是淘宝天猫如此，在当时这份榜单上的许多品牌都是如此。

而事实上，这类忽略用户规模而只谈数据的统计案例还有很多。诸如在科技互联网行业中大家最为关注的某些增长率上，往往就会如此。

还是以平台用户最为熟悉的智能手机产业为例，我们时常看到，苹果三星的销量增长仅为百分之几，与动辄销量增长达到20%乃至30%的国产相比，自然是自惭形秽，许多厂商也会以自己的增速超过苹果、三星而大加宣传。

虽然他们的销量增速放缓是客观存在，但在描述这在客观存在时，我们更需要注意的是要以他们现有的销量基数大小为参考，而若忽略体量谈增速，其实是非常不客观的，毕竟从现实来说，体量越小其实就越能取得高增速。当你销量为几百万台时，取得一个30%的销量增速可能会很容易，而若是当达到了诸如三星的每个季度7000—8000万台左右的销量时，要30%的销量增速就会极为困难了。

三、图表扩大化造就视觉误差

在统计口径、用户规模存在差异的统计带给用户困扰之外，其实还有另外一种统计手法容易给用户带来困扰与误导——图表扩大化造就的视觉误差。其原理在于：相对于文字而言，人类对于视觉信息有着更快的接受速度也更容易产生深度记忆。而许多“聪明”的公司，就做起了图表的视觉误差的文章，这在视觉误差在对比图中尤为常见。

数据也会说谎：隐藏在统计数据中的那些小把戏

诸如在今年华为GUP Turbo这项”吓人技术“发布的时候，其在与竞品们比较游戏时长时，我们就能看到在华为给出的这张对比图中，虽然荣耀Play在游戏时长上比iPhone X只多了半个小时，但是在上面这张对比图中，我们一眼看去留下的印象是：荣耀Play的游戏时长超越iPhone X一倍不止。如果仅给iPhone X标注4.0小时而不给荣耀Play标注4.5小时，把这在图放出去让用户猜测荣耀Play的游戏时长，信息我们心中想到的数据绝不会是4.5小时，而会是拥有至少十个小时的游戏时长。

写在最后：

毋庸置疑，统计数据对于我们的各类决策，有着重要的参考意义，但他的前提条件是我们寻找参照的统计数据要有意义，不能存在一些统计污染在其中。但在现实中，许多统计机构却在真实与谎言的灰色地带上走钢丝，使得诸多统计数据开始变得不仅不具备参考意义，反而会把用户带进沟里。

在此，需要的是我们擦亮眼睛，学会识破统计数据中的一些常见小把戏。当然，更需要注意的是，上述几种只是最为常见与简单的统计小把戏，在更低的统计中，还有更多高深的把戏，这需要我们以更为专业的知识去识破他们。

注：本文所有图片源自网络。

文|邻章【微信号：ZLxgic，微信公众号：TMT317】欢迎添加关注！文章转载请注明出处。

本人系独立撰稿人，腾讯科技2016年年度新媒体，关注智能手机、移动互联网、人工智能等，文章在虎嗅、钛媒体、界面新闻、百家号、搜狐科技、腾讯、雪球、品途商业评论、今日头条等30余家平台发布。

显示全文

数据也会说谎：隐藏在统计数据中的那些小把戏

一、采用不同统计口径的统计数据

二、忽略规模基数的统计数据

三、图表扩大化造就视觉误差

写在最后：

相关文章