文章以数据产物司理老曹和数据开拓工程师大熊对话的这则小故事,来给各人科普一下,数据管理到底是怎么去弄呢?
最近,前同事老曹跳槽到去了一家初具局限的互联网公司,作为刚入职公司的之一位数据产物司理,在数据质量这块,明明感受到了前所未有的焦急和心酸:
数据阐明师翠花:
老曹,本日的数据又没有产出,咋回事啊?我还忙着写阐明陈诉呢!!!
数据产物司理老曹:
呃……你等等,我和数据开拓工程师大熊一起看看。
于是,老曹匆匆跑到数据开拓工程师大熊身边,气喘吁吁的说:
大熊,本日数据的pipeline是不是又挂掉了啊?
数据开拓工程师大熊一脸苍茫的看着老曹,胆寒的说到:
“我也不知道啊,我手动查查察吧。”
数据产物司理老曹有点焦躁了,一脸问号的说:
数据没有产出可能有问题,你们都不做报警的吗?
数据开拓工程师大熊低下了头,一言不语。
老曹有点忍不了了,拖过来一个画板,开始给大熊科普下数据管理应该怎么搞。
产物千万种,数据之一条,建树不类型,公司两行泪。
作为一个在大数据规模事情多年的数据产物司理,我以为数据中出格重要的就是数据质量,跟着业务成长,数据量呈爆炸式增加,数据发挥的代价越来越大,数据质量问题也变得越来越严重,低质量的数据不只利用未便,还会误导决定,甚至劫难性的功效,数据质量的优劣,抉择了数据是否可以或许真正发挥代价。
数据开拓工程师大熊低着头说:
你说的这些,我都懂,可是总感受数据质量有点虚,应该从哪些方面来权衡它呢?
老曹接着往下说:
是的,那么如何判定数据质量的坎坷呢?什么样的数据是高质量的呢?
引用美国著名的质量打点学家朱兰博士(J.M.Juran)的一句话:If they are fit for their intended in operations, decision making and planning.翻译一下,就是,假如按照这些数据做出的操纵、决定和筹划,切合之前的预期,那么这些数据就是高质量的,换个角度来领略,高质量的数据可以真实反应它们所代表的主体信息。
团结大数据与业务履历,在从定性的角度来看,影响数据质量的因素包罗数据完整性、数据正确性、数据一致性、数据的可获取性以及数据的时效性等方面。
个中,数据的完整性是指业务涉及到数据是完整的,可以或许对业务利用影响很大的数据都要保持必然的完整性;
数据的正确性要满意精确性和精准性两方面,即数据要是精确无误的,数据要在精度上满意业务需求;
数据的一致性要满意同一个指标的口径要一致,数据不要有二义性;
数据的可获取性是指利用数据的时候,数据是被有效组织的,而且可以或许被高效获取;数据的时效性指利用的业务数据都是最新的,而不是无效的逾期数据。
数据开拓工程师大熊越听越有乐趣,抬起头说:
我们措施员都较量存眷架构和详细实现,有没有一些架构和方案可以分享下啊?
数据产物司理老曹点颔首,以为可以或许起到必然结果了,抓紧跟他说:
“影响数据质量的因素又有许多,包罗数据埋点质量、数据传输进程中呈现的问题,数据口径是否一致等等,因此,为了担保数据质量,有资源和精神的公司会搭建本身的数据打点系统,这个图就是数据打点中心产物架构,主要包括指标体系打点、全局数据打点、元数据打点等。别的,在数据安详性的前提下,还可以通过全局数据接口对外输出高质量的数据。”
边说老曹边画了一个数据打点中心的产物架构图。然后接着给大熊讲到:
以数据打点系统为例,它偏重于从时效性和数据一致性这两大质量偏向担保数据的可读性。
首先,要做数据客栈的数据时效性查抄。
明晰天天的每一个层级、每一个数据表的最早和最晚生成时间,发明影响当天数据生成耽搁的数据表,并可以或许通过数据打点系统答复以下问题:
当天 MySQL 表和 Hive 表中的焦点指标是何时生成的?有哪些表的产出时间比预期时间延迟了?任务延迟的原因是由哪几张表造成的?瓶颈在那边?优化哪几层?哪几张表可以提高焦点指标等的生成时间?
大熊一听,赶忙问道:
这个是不是要给我打KPI啊,假如我的任务延迟会不会给我扣人为啊?
数据产物司理老曹赶忙增补说:
你想多啦,我给你画一下这个原型,你就知道拉,他的目标是相识任务的延迟环境,然后还能为今后的复盘利用,不是为了就揪小辫子啊!
编辑导读:连年来,C端流量红利减低,巨头们纷纷把眼光投向了B端业务。TO B业务成为了“风口”,很多人也开始存眷TO B行业并跃跃欲试。本文作者从自身履历出发,分享了他对TO B 业务的深度思考和做T...
编辑导语:2017年4月6日,在“消费进级”、“制造业转型”、“新零售”、“新中产阶层崛起”的大情况下,小米有品正式上线并迅速成长。据七麦数据显示,小米有品下载量为5.6亿。在已经有淘宝、京东等大电商...
在互联网企业中,数据增长小组是一个跨职能的存在,相同各个部分,协调资源。本文通过四个方面解读数据增长小组,但愿对你有辅佐。 数据驱动的数据增长小组: 此刻的互联网企业越来越存眷和数据有关的一切工作,...
一场疫情却正在加快裸泳者现形,有业内人士认为“美团只是平台,没有生态,注定走不持久”,而始于家政、兴于家政的58抵家,在内忧外患之下,最终也或将只剩家政。 抵家处事炸了。 受疫情影响,当地糊口处事的...
安详数据不是一个数,而是一个别系。数据安详在差异的阶段存眷点差异,过度盯着一个数据会发生很大的问题,往往多个数据之间是此消彼长的干系。所以多存眷几个焦点数据平台、企业才气更好地成长。 “哥们,再资助...
编辑导语:你有没有碰着过这种环境:当你越想尽要领告竣增长方针时,反而越难到达增长,徐徐地就陷入了增长瓶颈中。本日,本文作者就通过AAARR模子,来为我们诠释了如何优化效率、抓住流量、完成增长,冲破增长...