大数据会说谎:看穿数据的真相

访客3年前黑客资讯489

编辑导语:如今在这个大数据时代,我们的日常都被计较在个中,最常见的就是线上购物软件的算法,按照大数据对你举办标签化,推送你大概喜欢的商品;本文作者具体阐明白大数据时代的双刃剑,我们一起来看一下。

大数据会说谎:看透数据的真相

最近接连复习了几本数据相关的书,作为数学系结业的学生,固然结业多年都无缘从事数据相关的职业,基本的理论常识也根基化整为零,但我对数据一直都蛮感乐趣的,在此也想分享下我的一些观点。

“一家公司公布3003人持有该公司的股份,每人平均持有660股。”

乍一看,优秀优秀。

别急着拍手,这个令人赞叹的数据背后尚有另一信息没有透露:“公司累计200万股股票,个中三大股东的股份占了3/4,而剩下的3000人总共持有的股份只占1/4“。

同样的,之前民间盛传的腾讯人均月薪7.18万,看起来是否也颇为可疑?

首先,这数据准确得让人受惊;其次,未加说明的平均数都是耍混混;最后,即便你做了大样本观测,可收入作为敏感信息,免不了参杂虚报和瞒报的环境,可信度也要大打折扣——这种话题作为媒体的噱头听听就好,卖力了但是要悲痛的。

但事实上,人容易为数据痴迷。

学生的本领欠好评估,但测验后果和学位证书可以佐证,于是家长们争先恐后地帮孩子报了补习班;相识一个生疏人很难,但伴侣圈和Facebook提供了一个渠道,于是我们都执着于在网上塑造一个抱负人设。

看吧,我们一直置身于大数据的 *** 中。

我的大学伴侣根基上都在从事大数据计较相关的职业,泛泛我们闲聊时,或多或少会叹息大数据给我们带来的双刃剑。

在充斥数据和算法的年月,毕竟是数据为我,照旧我为数据?数据是不是就便是我们本身?这个命题太大,我只能随波逐流。

本日主要是想当真探讨下,这么多年来,你我曾经陷入的数据陷阱以及我们能采纳的动作。

一、数据会说谎?

大数据是个好东西,尤其到了此刻,它早已被放大了光环,给我们带来了诸多便利;你欣赏过什么,对什么感乐趣,推荐算法老是能精准地匹配你的口胃(可能说,大数据界说了你的口胃)。

虽然,唱衰大数据的人也不少:“数据只是证实了显而易见的事实。”不少人对此不屑一顾。

然而,我最近看到的几个案例,都不止一次地让我哭笑不得:数据一次又一次地证明白许多我们想虽然的猜测跟真实是不相符的。

你大概会认为,在暴力影戏放映后的当天,那些有进攻性的年青人会更易怒,犯法率铁定会上升;但事实上,有经济学家通过数据阐明,在影戏竣事后到越日的破晓,犯法率一连在下降;一方面暴力影戏让潜在的暴力人群分开了陌头,另一方面由于影院险些不供给酒类饮品,淘汰了酒精有关的犯法勾当。

大数据为人我们提供了一个新维度的视角,包围面较单一的领悟更广,让我们对世界的认知也更立体了。

也正是因为如此,我在看一些调研陈诉的时候发明,这把双刃剑的另一面,终于照旧现出了他的真脸孔。

1. 相关性而非因果性

大数据显示,某地某时段起飞了几多只白日鹅,据此揣度天鹅都是白的。

这显然太扯了,但你敢拍着胸脯担保本身没掉过这类圈套吗?

甚至有些时候,假如我们无法证明本身想要证明的对象,下意识地就会展示一些其他对象,并冒充他们是一样的;究竟此刻统计数据让人目不暇接,险些没人会察觉到个中的不同,不是吗?

说到这我也不得不反思,我莫非没有过吗?翻开这层遮羞布,率直说,不少环境下当我试图争取更多的权益和话语权时,不自觉地也使了这样的花招。

运用“看似相关的数据”作为论据,要么是无心之失,要么就是习用技巧。

学生时代当我还对数学建模比赛上心时,考题要求预测一个数值变革趋势,我其时就冷静发明白一个“奥秘”,即/——给你一组数据,你可以利用任一种范式去找到一个看似好使的指标,但换一组数据,这个指标就失灵了;变量太多,你能试验的样本太少,于是你很容易发明这种假相关性,更别提你想基于这个相关性去推导因果性了。

退一步来说,即便我们通过一小我私家泛泛会见网站的内容,监察到他有了犯法的激动,那到底是抓他照旧不抓他?假如我们不能担保本身是公理的,那么我们也不会在意本身是否邪恶。

有些人很擅长操作现有数据去预估接下来的数据变革,大概是多维度的调查,也大概是有了足够的数据样本;可是,数据会变,我们会变,假如你迷信数据而忽视本质,那么大数据就不能用于预测,只能预测有领悟的预测。

相关文章

我们该如何爬出大数据陷阱?

我们该如何爬出大数据陷阱?

导读:大数据革命,是企业始终在为之格斗,且试图翻越的一座大山。没有一家企业没有数据,但鲜有企业可以或许用好数据。本文通过团结金融行业一线的事情履历,提出大数据运营视角下的小数据运维思路设计偏向,供各人...

从数据到大数据,数据技术工具的演变

从数据到大数据,数据技术工具的演变

编辑导语:大数据近些年来是一个十分火热的话题,关于大数据的文章也是数不胜数。本文作者通过梳理本身看过的大数据相关的资料和书籍,为我们先容了从“小数据”演化为“大数据”的进程是奈何的?而且分享了一些数据...

大数据时代个人隐私可以随便查?大数据时代怎么保护个人隐私

以国家互联网为重点,网络运营商不断优化互联网接入速度,手机制造商不断优化互联网接入体验。 整体的努力,为了扩大信息的阅读速度变得更快更简单。 大数据时代个人隐私可以随便查?大数据时代怎么保护个人隐私...

多款教育类APP违法被处罚?违规采集个人信息

多款教育类APP违法被处罚?违规采集个人信息,目前,跟着“互联网+教诲”的疾速开展,分外是为有用提防新式冠状肺炎疫情的熏染危害,天下各地的黉舍、高校纷繁推延开课。少许黉舍和校外培训机构开设在线讲堂,借...

大数据里,真实的“后浪”长什么样?

大数据里,真实的“后浪”长什么样?

用大数据窥视年青人,就领略了《后浪》为什么会“停顿”。 这两天,现象级营销TVC《后浪》刷屏了。 有人夸赞,也有人穷尽各类视角去挑问题,“批驳”内容格式百出。为什么简朴的一个营销宣传片会带来如此巨大...

这10个评价指标,可以带你认识推荐系统

这10个评价指标,可以带你认识推荐系统

跟着移动互联网的飞速成长,网络中的信息量呈指数式增长,大量的商品、资讯、常识、视频、音乐等内容和资源可供用户选择,信息过载问题日益突出。 而推荐系统是办理信息过载最有效的方法,因此,基于大数据的推荐...