《大数据——战略•技术•实践》抢鲜看之六:第1章概述之“大数据发展史、大数据技术架构”
发表于:2013年05月29日09:50转发5 上节我们介绍了大数据结构类型、大数据实例,本节我们将转载1.2节与1.3节的内容:大数据的发展史以及大数据的技术架构。 #0《大数据——战略•技术•实践》抢鲜看之预告篇 #1《大数据——战略•技术•实践》抢鲜看之一:编委会、前言 #2《大数据——战略•技术•实践》抢鲜看之二:序一、目录一 #3《大数据——战略•技术•实践》抢鲜看之三:序二、目录二 #4《大数据——战略•技术•实践》抢鲜看之四:第1章概述之“什么是大数据”(1) #5《大数据——战略•技术•实践》抢鲜看之五:第1章概述之“什么是大数据”(2) #6《大数据——战略•技术•实践》抢鲜看之六:第1章概述之“大数据发展史、大数据技术架构”1.2大数据发展史 回顾过去的50 多年,我们可以看到IT 产业已经经历过几轮新兴和重叠的技术浪潮,如图1-5所示。这里面的每一波浪潮都是由新兴的IT供应商主导的。他们改变了已有的秩序,重新定义了已有的计算机规范,并为进入新时代铺平了道路。 所有这一切开始于60 年代和70 年代的大型机浪潮,它是以BUNCH(Burroughs、Univac、NCR、ControlData 和Honeywell)等公司为首的。然后,在步入70 年代和80年代后,小型机浪潮和分布式计算涌现出来,为首的公司包括:DEC、IBM、Data General、Wang、Prime等。 在70 年代后期到进入90 年代,微处理器或者个人计算机浪潮冲刷了IT 产业,领先者为Microsoft、Intel、IBM和Apple 等公司。从90 年代中期开始,我们进入了网络化浪潮。如今,全球在线的人数已经超过了10亿,而且有更多几倍的人在使用移动电话。这一浪潮由Cisco、Google、Oracle、EMC、Salesforce.com等公司领导。有些公司更善于驾驭这些连续的浪潮,而另一些公司则被落下了。 那么,下一波浪潮会是什么?它还没有被正式命名。我们更愿意称它为云计算和大数据浪潮。其实,不管它被叫做什么,它都将比在它之前发生过的浪潮更大、触及面更广。非常重要的是:新的浪潮正在迅速地朝我们涌来,并将触及IT的各个方面。 数字信息每天在无线电波、电话电路和计算机电缆中川流不息。我们周围到处都是数字信息。我们在高清电视机上看数字信息,在互联网上听数字信息,我们自己也在不断制造新的数字信息。每次用数码相机拍照后,都产生了新的数字信息,通过电子邮件把照片发给朋友和家人,又制造了更多的数字信息。 不过,我们不知道的是,这些数字比特总共有多少?数字比特增加的速度有多快?比特激增意味着什么? 人们制造、获取和复制的所有1 和0组成了数字世界。人们通过拍照片和共享音乐制造了数字比特,而公司则组织和管理对这些数字信息的访问和存储并为其提供安全保障。 三种主要的模拟数字转换为这种增长提供了动力:用胶片拍摄影像转换为数字影像拍摄、模拟语音转换为数字语音,以及模拟电视转换为数字电视。从数码相机、可视电话、医用扫描仪到保安摄像头,全世界有10亿多台设备在拍摄影像,这些影像成为数字宇宙中最大的组成部分。这些影像通过互联网、企业内部网在PC和服务器及数据中心中复制,通过数字电视广播和数字投影银幕播放。 2007年是人类创造的信息量有史以来第一次在理论上超过可用存储空间总量的一年。然而,这没有什么好怕的,调查结果强调现在人类应该也必须合理调整数据存储和管理。有很多数据是没有必要复制和存储下来的,而且存储那些数据的成本也很高。 IDC和EMC[18]都认为数字信息量的增长是因为网络应用的不断增长,以及人类开始将物理数据转化为数字格式的数据所致。被存储下来的数据从本质上说已经发生了重大的变化,数字化数据总量增长得很快。大约在30年前,通信行业的数据大部分是结构化数据。如今,多媒体技术的普及导致非结构化数据如音乐和视频等的数量出现爆炸式增长。虽然30多年前的一个普通企业用户文件也许表现为数据库中的一排数字,但是如今的类似普通文件可能包含许多数字化图片和文件的影像或者数字化录音内容。现在,95%以上的数字信息都是非结构化数据。在各组织和企业中,非结构化数据占到了所有信息数据总量的80%以上。 “可视化”是引起数字世界急速膨胀的主要原因之一。由于数码相机、数码监控摄像机和数字电视内容的加速增多,以及信息的大量复制趋势,使得数字宇宙的容量和膨胀速度超过此前估计。 IDC的数字世界白皮书[19]指出,个人日常生活的“数字足迹”也大大刺激了数字宇宙的快速增长。通过互联网及社交网络、电子邮件、移动电话、数码相机和在线信用卡交易等多种方式,每个人日常生活都在被数字化。数字世界的规模从2006年到2011 年这五年间膨胀了10 倍!如图1-6 所示。 大数据快速增长的部分原因归功于智能设备的普及[6],比如传感器和医疗设备,以及智能建筑,比如大楼和桥梁。此外,非结构化信息,比如文件、电子邮件和视频,将占到未来10年新生数据的90%。非结构化信息的增长部分应归功于高宽带数据的增长,比如视频。 用户手中的手机和移动设备是数据量爆炸的一个重要原因,目前,全球用户拥有50 亿台手机,其中20 亿台为智能电话,这相当于80年代20 亿台IBM 的大型机在消费者手里。
1.3大数据技术架构 各种各样的大数据应用需求迫切需要新的工具和技术来存储、管理和实现商业价值。新的工具、流程和方法支撑起了新的技术架构,使得企业能够建立、操作和管理这些超大规模的数据集和储藏数据的存储环境。 在全新的数据增长速度条件下,一切都必须重新评估。这项工作必须从全盘入手,并考虑大数据分析。 要容纳数据本身,IT基础架构必须能够以经济的方式存储比以往更大量、类型更多的数据。此外,还必须能适应数据速度,即数据变化的速度。数量如此大的数据难以在当今的网络连接条件下快速来回移动。大数据基础架构必须分布计算能力,以便能在接近用户的位置进行数据分析,减少跨越网络所引起的延迟。随着企业逐渐认识到必须在数据驻留的位置进行分析,分布这类计算能力,以便为分析工具提供实时响应将带来挑战。考虑到数据速度和数据量,来回移动数据进行处理是不现实的。相反,计算和分析工具可能会移到数据附近。而且,云计算模式对大数据的成功至关重要。云模型在从大数据中提取商业价值的同时也在驯服它。这种交付模型能为企业提供一种灵活的选择,以实现大数据分析所需的效率、可扩展性、数据便携性和经济性。仅仅存储和提供数据还不够,必须以新方式合成、分析和关联数据,才能提供商业价值。部分大数据方法要求处理未经建模的数据,因此,可以用来跨毫不相干的数据源比较不同类型的数据和进行模式匹配。这使得大数据分析能以新视角挖掘企业传统数据,并带来传统上未曾分析过的数据洞察力。 基于上述考虑,我们构建了适合大数据的四层堆栈式技术架构,如图1-7 所示。 1.基础层 第一层作为整个大数据技术架构基础的最底层,也是基础层。要实现大数据规模的应用,企业需要一个高度自动化的、可横向扩展的存储和计算平台。这个基础设施需要从以前的存储孤岛发展为具有共享能力的高容量存储池。容量、性能和吞吐量必须可以线性扩展。 云模型鼓励访问数据并提供弹性资源池来应对大规模问题,解决了如何存储大量数据,以及如何积聚所需的计算资源来操作数据的问题。在云中,数据跨多个节点调配和分布,使得数据更接近需要它的用户,从而缩短响应时间和提高生产率。 2.管理层 要支持在多源数据上做深层次的分析,大数据技术架构中需要一个管理平台,使结构化和非结构化数据管理为一体,具备实时传送和查询、计算功能。本层既包括数据的存储和管理,也涉及数据的计算。并行化和分布式是大数据管理平台所必须考虑的要素。 3.分析层 大数据应用需要大数据分析。分析层提供基于统计学的数据挖掘和机器学习算法,用于分析和解释数据集,帮助企业获得对数据价值深入的领悟。可扩展性强、使用灵活的大数据分析平台更可成为数据科学家的利器,起到事半功倍的效果。 4.应用层 大数据的价值体现在帮助企业进行决策和为终端用户提供服务的应用。不同的新型商业需求驱动了大数据的应用。反之,大数据应用为企业提供的竞争优势使得企业更加重视大数据的价值。新型大数据应用对大数据技术不断提出新的要求,大数据技术也因此在不断的发展变化中日趋成熟。