一则小故事科普:数据治理到底怎么弄?

访客5年前黑客文章546

文章以数据产物司理老曹和数据开拓工程师大熊对话的这则小故事,来给各人科普一下,数据管理到底是怎么去弄呢?

一则小故事科普:数据管理到底怎么弄?

最近,前同事老曹跳槽到去了一家初具局限的互联网公司,作为刚入职公司的之一位数据产物司理,在数据质量这块,明明感受到了前所未有的焦急和心酸:

数据阐明师翠花:

老曹,本日的数据又没有产出,咋回事啊?我还忙着写阐明陈诉呢!!!

数据产物司理老曹:

呃……你等等,我和数据开拓工程师大熊一起看看。

于是,老曹匆匆跑到数据开拓工程师大熊身边,气喘吁吁的说:

大熊,本日数据的pipeline是不是又挂掉了啊?

数据开拓工程师大熊一脸苍茫的看着老曹,胆寒的说到:

“我也不知道啊,我手动查查察吧。”

数据产物司理老曹有点焦躁了,一脸问号的说:

数据没有产出可能有问题,你们都不做报警的吗?

数据开拓工程师大熊低下了头,一言不语。

老曹有点忍不了了,拖过来一个画板,开始给大熊科普下数据管理应该怎么搞。

产物千万种,数据之一条,建树不类型,公司两行泪。

作为一个在大数据规模事情多年的数据产物司理,我以为数据中出格重要的就是数据质量,跟着业务成长,数据量呈爆炸式增加,数据发挥的代价越来越大,数据质量问题也变得越来越严重,低质量的数据不只利用未便,还会误导决定,甚至劫难性的功效,数据质量的优劣,抉择了数据是否可以或许真正发挥代价。

数据开拓工程师大熊低着头说:

你说的这些,我都懂,可是总感受数据质量有点虚,应该从哪些方面来权衡它呢?

老曹接着往下说:

是的,那么如何判定数据质量的坎坷呢?什么样的数据是高质量的呢?

引用美国著名的质量打点学家朱兰博士(J.M.Juran)的一句话:If they are fit for their intended in operations, decision making and planning.翻译一下,就是,假如按照这些数据做出的操纵、决定和筹划,切合之前的预期,那么这些数据就是高质量的,换个角度来领略,高质量的数据可以真实反应它们所代表的主体信息。

团结大数据与业务履历,在从定性的角度来看,影响数据质量的因素包罗数据完整性、数据正确性、数据一致性、数据的可获取性以及数据的时效性等方面。

个中,数据的完整性是指业务涉及到数据是完整的,可以或许对业务利用影响很大的数据都要保持必然的完整性;

数据的正确性要满意精确性和精准性两方面,即数据要是精确无误的,数据要在精度上满意业务需求;

数据的一致性要满意同一个指标的口径要一致,数据不要有二义性;

数据的可获取性是指利用数据的时候,数据是被有效组织的,而且可以或许被高效获取;数据的时效性指利用的业务数据都是最新的,而不是无效的逾期数据。

数据开拓工程师大熊越听越有乐趣,抬起头说:

我们措施员都较量存眷架构和详细实现,有没有一些架构和方案可以分享下啊?

数据产物司理老曹点颔首,以为可以或许起到必然结果了,抓紧跟他说:

“影响数据质量的因素又有许多,包罗数据埋点质量、数据传输进程中呈现的问题,数据口径是否一致等等,因此,为了担保数据质量,有资源和精神的公司会搭建本身的数据打点系统,这个图就是数据打点中心产物架构,主要包括指标体系打点、全局数据打点、元数据打点等。别的,在数据安详性的前提下,还可以通过全局数据接口对外输出高质量的数据。”

本日的数据又没出来!咋回事?

边说老曹边画了一个数据打点中心的产物架构图。然后接着给大熊讲到:

以数据打点系统为例,它偏重于从时效性和数据一致性这两大质量偏向担保数据的可读性。

首先,要做数据客栈的数据时效性查抄。

明晰天天的每一个层级、每一个数据表的最早和最晚生成时间,发明影响当天数据生成耽搁的数据表,并可以或许通过数据打点系统答复以下问题:

当天 MySQL 表和 Hive 表中的焦点指标是何时生成的?有哪些表的产出时间比预期时间延迟了?任务延迟的原因是由哪几张表造成的?瓶颈在那边?优化哪几层?哪几张表可以提高焦点指标等的生成时间?

大熊一听,赶忙问道:

这个是不是要给我打KPI啊,假如我的任务延迟会不会给我扣人为啊?

数据产物司理老曹赶忙增补说:

你想多啦,我给你画一下这个原型,你就知道拉,他的目标是相识任务的延迟环境,然后还能为今后的复盘利用,不是为了就揪小辫子啊!

相关文章

远望资本程浩:做To B,一定要避免9类错误!

远望资本程浩:做To B,一定要避免9类错误!

编辑导读:连年来,C端流量红利减低,巨头们纷纷把眼光投向了B端业务。TO B业务成为了“风口”,很多人也开始存眷TO B行业并跃跃欲试。本文作者从自身履历出发,分享了他对TO B 业务的深度思考和做T...

拆解产品:小米有品——品质电商之路

拆解产品:小米有品——品质电商之路

编辑导语:2017年4月6日,在“消费进级”、“制造业转型”、“新零售”、“新中产阶层崛起”的大情况下,小米有品正式上线并迅速成长。据七麦数据显示,小米有品下载量为5.6亿。在已经有淘宝、京东等大电商...

互联网企业中的数据增长小组

互联网企业中的数据增长小组

在互联网企业中,数据增长小组是一个跨职能的存在,相同各个部分,协调资源。本文通过四个方面解读数据增长小组,但愿对你有辅佐。 数据驱动的数据增长小组: 此刻的互联网企业越来越存眷和数据有关的一切工作,...

始于家政、兴于家政,到家服务平台最终或只剩家政

始于家政、兴于家政,到家服务平台最终或只剩家政

一场疫情却正在加快裸泳者现形,有业内人士认为“美团只是平台,没有生态,注定走不持久”,而始于家政、兴于家政的58抵家,在内忧外患之下,最终也或将只剩家政。 抵家处事炸了。 受疫情影响,当地糊口处事的...

数据只盯着GMV(成交总额),互联网企业能安全吗?

数据只盯着GMV(成交总额),互联网企业能安全吗?

安详数据不是一个数,而是一个别系。数据安详在差异的阶段存眷点差异,过度盯着一个数据会发生很大的问题,往往多个数据之间是此消彼长的干系。所以多存眷几个焦点数据平台、企业才气更好地成长。 “哥们,再资助...

越想增长,越难增长的怪圈

越想增长,越难增长的怪圈

编辑导语:你有没有碰着过这种环境:当你越想尽要领告竣增长方针时,反而越难到达增长,徐徐地就陷入了增长瓶颈中。本日,本文作者就通过AAARR模子,来为我们诠释了如何优化效率、抓住流量、完成增长,冲破增长...