什么是大数据?麦肯锡公司的报告《大数据:创新、竞争和生产力的下一个前沿领域》中给出的大数据定义是:大数据指的是规模超过现有数据库工具获取、存储、管理和分析能力的数据集,并同时强调并不是超过某个特定数量级的数据集才是大数据。
国际数据公司(IDC)用四个维度的特征来定义大数据,即数据集的规模(Volume)、数据流动的速度(Velocity)、数据类型的多少(Variety)和数据价值的大小(Value)。
亚马逊的大数据科学家John Rauser的定义比较直接:“超过单台计算机处理能力的数据量则为大数据”。
最后我们来看看 *** 上的大数据定义:“Big data is the term for a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications. ”翻译成中文的意思是:大数据指的是数据规模庞大和复杂到难以通过现有的数据库管理工具或者传统的数据处理应用程序进行处理的数据 *** 。
上述大数据的概念中无一例外都突出了“大”字。从表面上看,数据规模的增长的确为处理数据带来了很大的问题。具体来说,在同样时间内获取与以前相同价值的数据变得不可为了。换言之,本质问题是数据的价值密度变低了,数据交换速率变慢了,所以催生了很多新型数据处理技术和工具,如Google的GFS和MapReduce,Apache Hadoop生态系统,美国伯克利大学AMPLab的Spark等;出现了对时间敏感程度不同的计算模式,如批式计算模式、交互式计算模式、流计算模式、实时计算模式等。计算模式的差异只是决定获取价值的技术不同,取决于上层业务需求的不同。实际上,所谓大数据问题的本质应是数据的资产化和服务化,而挖掘数据的内在价值是研究大数据的最终目标。
2. 大数据技术源起Google
Google在搜索引擎上所获得的巨大成功,很大程度上是由于采用了先进的大数据管理和处理技术,是针对搜索引擎所面临的日益膨胀的海量数据存储问题以及在此之上的海量数据处理问题而设计的。
Google提出了一整套基于分布式并行集群方式的基础架构技术,利用软件的能力来处理集群中经常发生的节点失效问题。Google使用的大数据平台主要包括五个相互独立又紧密结合在一起的系统:分布式资源管理系统Borg,Google文件系统(GFS),针对Google应用程序的特点提出的MapReduce 编程模式,分布式的锁机制Chubby以及大规模分布式数据库BigTable。
Borg是这五个系统中最为神秘的一个,直到2015年Google才在EuroSys 2015上发表了题为“Large-scale cluster management at Google with Borg”的论文。称Google内部不仅像计算型的应用,比如MapReduce、Pregel等运行在Borg上,存储类的应用,比如GFS,BigTable和Megastore等也运行在上面,真正做到了批处理作业和长周期服务的混合部署和资源动态调度。得益于此项技术,可以使平均资源利用率达到30%~75%以上,大大高于业界平均水平的6%~12%。
GFS是一个大型的分布式文件系统,它为Google云计算提供海量存储,并且与Chubby、MapReduce和BigTable等技术结合得十分紧密,处于系统的底层。它的设计受到Google特殊的应用负载和技术环境的影响。相对于传统的分布式文件系统,为了达到成本、可靠性和性能的更佳平衡,GFS从多个方面进行了简化。
MapReduce是处理海量数据的并行编程模式,用于大规模数据集的并行运算。MapReduce通过“Map(映射)”和“Reduce(化简)”这样两个简单的概念来参加运算。用户只需要提供自己的Map 函数以及Reduce 函数就可以在集群上进行大规模的分布式数据处理。这一编程环境能够使程序设计人员编写大规模的并行应用程序时不用考虑集群的可靠性、可扩展性等问题。应用程序编写人员只需要将精力放在应用程序本身,关于集群的处理问题则交由平台来完成。与传统的分布式程序设计相比,MapReduce封装了并行处理、容错处理、本地化计算、负载均衡等细节,具有简单而强大的接口。正是由于MapReduce具有函数式编程语言和矢量编程语言的共性,使得这种编程模式特别适合于非结构化和结构化的海量数据的搜索、挖掘、分析等应用。
“汇总苏州地区预定商务艺人经纪人的各层面留意-【菱湖小蝶】” ID:2220目前每一个人都要想找寻合适自身的美空模特,可是要想真实的掌握到合适自身的美空模特得话,也是十分艰难的,愈来愈多的女学妹,她们...
lol5月幸运召唤师会开吗?腾讯5月幸运召唤师活动地址是多少?不少玩家都想知道关于最新一期lol幸运召唤师腾讯官网地址。话不多说,下面,就随小编来了解一下吧! 英雄联盟5月幸运召唤师会开吗?...
3月13消息,美国证券交易委员会星期一提出一项民事诉讼,指控三名印度黑客通过非法使用其他人的在线交易账户操纵了包括Sun微系统和Google在内的至少14家公司的股票价格。 据information...
奶茶行业是近两年成长较量火爆的行业之一,然而拥有鲜味而康健的优质的饮品才气越发的受到宽大消费者的喜爱,才气更好的满意宽大顾主,所以加盟一个拥有庞大消费群体的品牌加盟项目就成为了加盟者求之不得的工作,那...
特斯拉官方并未对此事作出回应。 记者就此事致电特斯拉官方客服,客服人员表示“并没有收到相关消息”,关于警方是否介入,客服人员表示“不清楚”。如果你经常看抖音,肯定刷到过这类的视频,就是一个老照片,划...
心肌梗塞能治好吗(心肌梗塞究竟能治不好)伴随着生活的节奏的加速,我们的日常生活习惯性和饮食结构都是在发生一些更改,这实际上便会造成 一些病症突发性,而心肌梗塞便是在其中患病率较为高的一种。而一说到...