聊聊数据中台:元数据建设有哪些坑(一)

访客3年前黑客资讯862

元数据一般被称为“数据的数据”,以元数据为要害展开数据管理,可以或许辅佐企业更好地对数据资源举办打点,理清数据之间的干系,实现更精准高效的阐明和决定。本文作者从自身事情出发,对元数据的根基成果展开了先容说明,与各人分享。

聊聊数据中台:元数据建树有哪些坑(一)

本人在一家金融科技公司做B端产物司理,大数据偏向的,2019年我们公司大张旗鼓的启动了数据中台建树,作为数据中台的重要构成部门,元数据自然被提上了日程。在产物建树进程中碰着了许多坑跟各人分享下(之一次分享有错误还请各人多多包容)。

关于元数据的观念的科普、先容我这里就不多说了,各人在人人都是产物司理随便搜一下就有。

一、元数据成果先容

在做元数据之前本人也做了许多的竞品阐明(简朴的),像这类产物更多照旧乙方较量有履历举例几个亚信、普元信息、网达、星环等等。按照我们的需求近况我们确定任何一家成熟的产物都cover不住我们的需求,对付乙方习惯于尺度化,非标的需求都不太愿意做,所以我们爽性就从0到1开始建树,不消他们的产物,只用他们的技能本领。

对付要不要从0到1建树取决于数据量和数仓建树环境,假如数据量不大直接买一个成熟产物即可可能基础不需要元数据产物,究竟没有元数据也能成立数仓的(扯远了~),每个公司对元数据的需求大概都不太一样,元数据的尺度化其实不太好做(对技能要求很高),因为你要能cover住大部门用户的需求,cover不住要么用户妥协、要么你妥协二次开拓一些成果给用户利用。

按照我们的需求我们筹划了以下成果(简朴的先容下):

1. 基本成果

1)数据舆图:分为数据资产、元数据中心,为用户提供元数据资产统计处事。

2)数据资产统计:用户可以通过数据舆图清晰的相识数据的利用环境、漫衍等对整个数据资产环境有个或许的相识(这种阐明统计类的需求是无止尽的,做一部门常用的即可,剩下的入库本身用可视化阐明东西展示)

3)元数据中心:这是元数据焦点成果之一,整个元数据的输出就是数据舆图,用户可以通过元数据中心查察表的元数据信息(技能元数据、业务元数据)、任务信息、血缘干系(表级、字段级)血缘阐明、利用信息等等(再多就看本身公司诉求了)

4)元模子:元模子是元数据的焦点成果之一,主要实现技能元数据和业务元数据的打点、维护;这里说下子模子的观念,思量场景的多样性好比运维更存眷技能元数据、业务更存眷业务元数据,针对差异的库、表可以应用差异的元模子,以满意差异人群的需求。

5)打点中心:打点中心主要针对成果权限、数据权限举办打点包罗权限申请、审批、实施等。

6)我的数据:为用户提供查察自身权限、建表等成果。

7)数据打点:数据打点包括元模子、数据源打点等成果,用于元数据的手动、自动收罗(出产的元数据收罗依赖外部平台,大数据侧元数据收罗我们本身做的)

8)元数据质量:主要做元数据管理用的,包括库、表元数据管理成果,分多个维度统计元数据完成环境,并可以做相应通知等。

9)其他:还做了一些其他成果如审计等,这里不细讲了。

2. 产物架构

我简朴描写下:

存储/计较:元数据利用MySQL举办存储、图数据库,查询利用clickhouse,缓存漫衍式redis;

处事层:处事层提供基本的平台处事本领,包罗元数据打点、元数据舆图、打点中心、用户权限打点等。

通知处事:元数据打点系统中通知类动静今朝有三种泛起形式,别离为站内信、短信、邮箱;

元数据收罗:kafka、hook插件、flume、sftp

安详处事:LDAP认证、kerberos

二、产物建树的筹备事情 1. 需求调研

关于需求调研、阐明,需求从来都是无止尽的,没有上限,作为产物心中要给本身划个底线,你的产物界线、产物定位在那边,尤其是需求方较量强势的时候,确定好界线和底线你才知道哪些能做、哪些不能做,哪些需要重点优先建树,这样你在交付产物才气获得需求方的承认。

我们就没有守住底线接了许多运维类的需求,同时也拒绝了许多运维类的需求,因为在做下去就酿成了四不像了集ETL部门成果、数据加工部门成果、数据库打点成果等等等。元数据焦点照旧数据收罗、数据舆图、元模子、数据权限,当你接了太多需求时,照旧回归产物定位、明晰产物界线,时间有限、精神有限我们能做的也有限。

2. 数据收罗

(1)收罗内容简直认

相关文章

“营销数字化10讲”(7):数字化的心脏——数据中台

“营销数字化10讲”(7):数字化的心脏——数据中台

编辑导语:数据从软件降生的那一天开始就存在,可是,数据并不是第一天就被存储和操作的。本年来,数据中台的观念火热了起来,成立数据中台的方针是为了融合整个企业的全部数据,买通数据之间的隔膜,消除数据尺度和...

企业想要建设数据中台?先想想自己有没有这个底子!

企业想要建设数据中台?先想想自己有没有这个底子!

编辑导读:自从阿里提出中台观念后,各行各业不绝推出了中台的应用与落实,着手数据中台的建树。可是,数据中台今朝还没有一个统一的界说,对付数据中台是什么、有什么代价、怎么建树,各行各业仍需团结实践去摸索。...

抽丝剥茧与聚沙成塔——数据中台产品的实践与总结

抽丝剥茧与聚沙成塔——数据中台产品的实践与总结

2020年9月12-13日,人人都是产物司理举行的【 2020杭州产物司理大会】完美落幕。拥有14年IT相关事情履历,12年产物司理事情履历的SHEIN首席产物架构师@翟锦修,他带来的分享主题是《抽丝...

数据中台产品经理面试指南(二)

数据中台产品经理面试指南(二)

编辑导读:此刻许多公司都在思量建树数据中台,数据产物司理成为人才缺口很大的一个岗亭。可是,想要拿到offer并不是一件简朴的事,因为数据中台对产物司理的要求照旧较量高的。上一篇文章中作者总结了数据中台...

交互设计原则在数据中台中的应用

交互设计原则在数据中台中的应用

编辑导读:交互设计直接抉择用户利用产物进程中的体验,其重要性不问可知。本文作者依据在数据中台产物设计中的所思所想,团结案例平分享了本身对8个交互设计原则的领略和应用,供各人一同参考和进修。 之前做了...

从大数据的发展史,看数据中台的核心价值

从大数据的发展史,看数据中台的核心价值

编辑导语:自从数据中台提出今后,各行各业都开始推出关于中台的应用和落实;数据中台的焦点代价是什么?所有公司都适合做数据中台吗?本文作者具体阐明白大数据下的数据中台。 “数据中台”是进本年较量火的一个...