百度:面对海量数据的绿巨人



     互联网时代是一个巨人涌现的时代,如果要对中国的互联网企业做一个严谨的判断,那么百度绝对可以说已经成长为一个巨人。百度的活力,既表现在其内部活力弥久的创新能力,也在于其对外界强大的渗透能力。作为全球最大的中文搜索引擎,百度每天响应来自138个国家和地区的数十亿次请求,百度每日新增数据10TB,要处理超过100PB(1PB=1024TB)的数据,从浩如烟海的信息中精确抓取约10亿网页,同时索引库还拥有千亿级在线索引能力,以帮助用户完成搜索过程。过去10年,百度网页搜索库已从500万猛增到了500亿。

  百度新首页上线一年以来,已经累积用户1.2亿,增长速度达到400%。那么,面对如此巨大的数据处理量,百度是如何通过绿色高效数据中心在大数据时代应对节能环保的要求的呢?

  M1云数据中心:PUE第一如何取得?

  2013年4月,在云计算发展与政策论坛召开的第三次高端会议上,百度M1云数据中心以PUE(数据中心的能耗指标) 2012年平均PUE达1.37,近12个月平均PUE为1.36,最佳PUE达到1.18,取得了国内PUE第一的最佳成绩(PUE越接近1越好,业界的平均PUE为2.5)。该评估由工业和信息化部电信研究院联合国内的主流电信运营商、互联网服务提供商和设备制造商及有关科研院所共同发起,代表着国内数据中心评估工作的最高水平。那么,M1云数据中心的PUE值国内第一是如何取得的呢?

  M1云数据中心位于朝阳区酒仙桥北路9号,原建筑为北京松下彩管厂区301号建筑,后由北京捷通公司改建而成。在向记者展示的幻灯片中,可以看到M1云数据中心的主体结构:M1数据中心总面积为6320平米,一层面积为5370平米,包括机房及动力、配电等辅助区域;二层面积为878平米,包括办公用房;地下一层水泵房面积为72平米。

  百度云首席架构师林仕鼎说,百度云数据中心计算的主要技术领域涵盖了数据中心体系结构、存储、计算 、超大规模系统等。

  M1数据中心由厂房改造而成,在改造过程中,采用外墙保温技术,最大限度减少室内外温度传导。在机房平面布局时,设置环形走廊,将机房区域设置在建筑环廊内区,最大程度减少冷量损失;外沿为走廊区域,充分利用自然条件,减少空调开启时间,实现节能运行。

  在软件架构优化方面,百度M1数据中心,部署了百度自主开发的在线离线业务混布系统,以及自主研发的服务器流量调度系统,在大幅提高在线机器的利用率的同时,极大限度地降低业务为应对突发事件而预留的冗余服务器资源,大大提高了能效。

  在硬件方面,服务器的能耗是数据中心能耗的主要部分。M1数据中心采用了绿色节能部件定制、固态硬盘(SSD)应用、电源效率优化、主板改造、去除冗余、与IDC环境结合的风扇优化策略等多个手段,使单节点降低能耗25%,整个数据中心的计算及处理能力大幅提升。此外,数据中心还率先使用了ARM采用精简指令集(RISC)的解决方案,使每台服务器的CPU功耗降低到原来的十分之一。

  在针对另外一块主要的能耗——空调系统的改造中,M1数据中心采用高效的冷冻水空调系统,并结合一系列先进技术以提高制冷及空调系统能效。例如,采用水侧Freecooling系统设计,充分利用室外自然冷源,尽量减少冷水机组运行负荷和时间,大大降低了数据中心能耗。另外,M1数据中心项目中引入先进的气流优化设计手段,采用CFD (Computational Fluid Dynamics)辅助进行机房气流组织方案设计,优化机房设备布局、细部规格尺寸、参数设置和维护维修策略等。在市电供电架构方面,M1数据中心提出简化供电系统结构大胆构想,在国内首次大规模采用市电主供,冗余电源作备份的新型供电架构,UPS系统整体损耗降低近10%。

 百度:面对海量数据的绿巨人
  自行设计,打造绿色之路

  目前,百度已经在多个领域展开了基于公共数据的搜索服务。2013年2月,国家药监局三大数据库向百度开放,包括具有18万余种国产和进口药品信息的药品数据库,6000余种非处方药(OTC)化学药品说明书范本及中药说明书范本的药品说明书范本数据库,以及经过认证的可向个人售药的网站的数据库信息。

  2013年4月末,百度知道推出了知识搜索服务,针对相关领域的关键词检索提供满足用户需求的特型展示,目前已上线的有口碑搜索、医疗搜索、答案聚合及数据图谱等功能,并同时覆盖到PC端与无线端。

  在百度已相继引入国家药监局、中国家电维修协会、中国航空协会、中国银行业协会、北京市卫生局等权威机构的核心数据后,2013年5月,全国组织机构代码管理中心又和百度公司达成战略合作,以便为社会提供安全、准确的搜索结果。网友在百度搜索“组织机构代码查询”可以进入专业核查工具,只要输入组织机构名称、代码、登记证号中的任意一项,就可以了解机构类型、地址、有效期、颁发单位等重要信息,迅速判断这家组织机构是否真实、可靠。

  那么,这些海量的数据,在云时代的背景下,百度如何通过有效的组织管理以及在设计理念上来实现几十座数据中心的节能呢?在走访中记者逐渐了解到,百度除了采用一系列节能的方法和技术,比如优化电源结构、引入变频技术,优化服务器的气流式冷水机组及使用CFD软件等方式来实现服务器技术的优化外,更通过一系列定制化、高效的部件方面的自我的创新来建立中国最节能高效的云计算数据中心。

  自建绿色高效数据中心

  “数据中心是百度业务的载体,它支撑着海量数据存储、云平台和搜索社区等,所以百度更加关注建设云数据中心,用云的核心驱动力来支撑业务规模发展。”百度公司技术委员会理事长陈尚义介绍说,“百度的单体十万台服务器的数据中心,PUE每降低0.1,一年就可为百度节省上千万的成本,所以,打造自我的绿色高效数据中心,在大数据时代将能很好应对节能环保、低碳的要求。”

  目前,面对海量的大数据,百度正在通过自建数据中心,开发了自己的大数据存储系统,并使用了多项新技术。目前,计划投资47.08亿元的百度云计算(阳泉)中心已于2012年8月奠基,该项目预计2015年完工。建成后的百度云计算(阳泉)中心数据存储量将超过4000PB,可存储的信息量相当于20多万个中国国家图书馆的藏书总量。2013年4月15日,成都市高新区与百度云签署协议,中国最大的云开发服务平台——“成都百度云开发者技术中心”正式入驻成都高新区移动互联网大厦。此外,南京、广州、天津的百度云数据中心也都在建设之中。

  陈尚义介绍说,百度数据中心从设计之初就开始体现绿色节能的理念。在解决设备散热问题中,百度数据中心采用集中散热、集中供电、高效部件等方法来降低能耗;在解决服务器能耗问题中,采用SSD解决服务器的瓶颈,降低服务器数量等方式来节约服务器耗电量。此外,一些数据中心采取白天以商业业务为主、数据处理为辅,夜晚侧重数据处理为主的原则,来很好分配大数据量的工作时间,进而实现了节能高效。

  除了这些技术,百度最让人叹服的还有数量众多的“看家本领”,更显示其“自制”的能力。

  能力1:自制固态硬盘(SSD)。据估计,百度的数据中心存储了数百PB的数据,其日常的数据处理能力达到数十个PB。为了解决海量数据实时存储的巨大挑战,百度自行开发了SSD产品,其研发的SSD的性能比SATA SSD要好六倍,而且其成本只是它的10%。在南京的云计算数据中心也进行了大规模的行业内的固态硬盘(SSD)部署。

  能力2:自行设计10Gb TOR交换机。百度自2011年开始研究和开发TOR交换机的设计,并于2012年推出第一代10Gb的TOR交换机。通过使用自行设计的硬件和软件,设计制造模块,以及DAC(直接连接电缆),百度的10Gb TOR的成本只相当于同样的1GB TOR商业交换机。目前百度的10Gb TOR交换机能承载超过5000台的服务器,部署在其云计算数据中心里。

  能力3:定制机架服务器。百度正在与Facebook合作,促进和优化开源的机架服务器的探索,这也是中国自主设计机架服务器的开源项目。定制的机架式服务器解决了百度许多问题,如传统的主机托管数据中心空间和功率密度的限制,电缆的混乱和部署的效率低下,有助于提高智能化管理和资产精度。在南京的云计算数据中心,百度大规模部署了ARM服务器。据百度说,基于ARM的服务器使数据中心的总拥有成本(TCO)降低了25%,提高存储密度70%。百度已经获得开发基于ARM的服务器的10项专利。ARM服务器的应用,使南京的云计算数据中心能够降低服务器总体拥有成本的10%,业务高峰时运转效率提高近10倍。

  如今,百度已经成为中国最具价值的品牌之一,英国《金融时报》将百度列为“中国十大世界级品牌”。目前百度已经面向开发者全面开放了包括云存储、大数据智能和云计算在内的核心云能力,为开发者提供强大的技术运营支持与推广变现保障。作为互联网搜索的入口,百度承载着数亿网民检索需求,满足海量计算的数据中心规模将日益庞大。百度从软件架构、IT设备、数据管理效率等多方面入手,致力于绿色IT建设,将对产业链上下游的参与起到良好的示范和带动作用。

  

爱华网本文地址 » http://www.aihuau.com/a/9101032201/41087.html

更多阅读

百度知道怎么删除自己的回答和提问 百度知道怎样删除提问

百度知道怎么删除自己的回答和提问——简介现在的百度知道中增加了一项“我的特权”一栏,在其中“可以删除我的提问或回答,包括没有回答的提问,以及没有被采纳的回答”,这个也方便了我们的知道,这个功能还是比较不错的。百度知道怎么删

百度技术沙龙:基于大数据的预测技术

点击标题下「大数据文摘」可快捷关注本次分享的话题分别是“大数据与预测”和“基于互联网数据的社会经济预测”。回复“百度沙龙”,可一并下载2篇PPT在由@百度主办、@InfoQ负责策划组织和实施的第53期百度技术沙龙活动上,来自百度研

海量数据的存储与处理 海量数据分布存储技术

所谓海量,就是数据量很大,可能是TB级别甚至是PB级别,导致无法一次性载入内存或者无法在较短时间内处理完成。面对海量数据,我们想到的最简单方法即是分治法,即分开处理,大而化小,小而治之。我们也可以想到集群分布式处理。1海量数据的存

声明:《百度:面对海量数据的绿巨人》为网友一亽旅分享!如侵犯到您的合法权益请联系我们删除