新技术商业化 新技术浪潮下的商业「炼金术」
在新技术浪潮下,“伦敦眼灯光秀”只是人们现在身处的大数据时代的一个小魔术而已。 2012年伦敦奥运会让全世界观众都因为激烈的比赛而心潮起伏,如何知道大家对于奥运是什么样的心情?很简单,只要你去看一眼世界上最大的摩天轮之一——“伦敦眼”,答案就可了然于胸。 用“伦敦眼”的灯光秀来展示观众对于奥运比赛的情绪,这是EDF Energy公司和美国麻省理工学院的合作项目。这个项目实时过滤人们在Twitter上发布的微博,根据一些与奥运有关的词汇,比如“2012 London Olympic”、“Olympic Game”等,将与之相关的微博从海量数据中过滤出来,之后采用被称作“SentiStrength”的情感计算程序自动对每条微博表达的情绪作出判断,将其分为“积极情绪”、“消极情绪”或者“中性情绪”。每天数十万的奥运相关微博经过分析汇总后,就可以知道当天观众对于奥运的整体情绪是怎样的,将这个统计结果以伦敦眼上不同颜色灯光投射,人们一眼就可以知道其他人的心情。如果你看到四分之三的伦敦眼转轮上的灯光是橙色的,那么这代表了75%的奥运相关微博是积极情绪,而悲观情绪则以蓝色灯光来表示。 从PB到EB的迁越 大数据时代呼唤新技术 多大的数据量才能称得上“大数据”?这其实是颇为令人困惑的一个问题。在谈论数据大小之前,我们先来了解数据量的衡量单位,从小到大依次为KB、MB、GB、TB、PB、EP和ZB,其相互之间的转换公式为:1024K=1MB、1024MB=1GB、1024GB=1TB、1024TB=1PB、1024PB=1EB、1024EB=1ZB。数据大小是相对而言的一个变化的概念,在20世纪末,MB是最常用的存储单位,那时1GB就可以称得上“大数据”了。而随着IT技术的快速发展,我们逐步迈入了GB时代、TB时代,而现在正处于从PB到EB的迁越阶段。 为了对数据之大获得更感性的认识,让我们来看一组数据:Facebook管理了超过400亿张图片,所需存储空间超过100PB,每天发布的新消息超过60亿条,所需存储空间超过10TB;Twitter一天产生1.9亿条微博;搜索引擎一天产生的日志高达35TB,Google一天处理的数据量超过25PB;YouTube一天上传的视频总时长为5万个小时……如果愿意的话,这个单子还可以拉得很长。 我们正处于电子数据暴涨的时代,统计数据表明:2010年全世界信息总量是1ZB,最近三年人类产生的信息量已经超过了之前人类历史上所产生的所有信息之和,如果再过10年回过头来看,这个数字其实也不算体量巨大,要知道,数字信息量正在以每五年增加10倍的速度加速扩张。 为何数据会发生井喷式的增长?这与互联网、物联网大潮的高速发展以及IT技术的快速进步有直接关联。互联网的普及、智能手机等手持设备的广泛使用使得越来越多的人能够将可支配时间投入到网站点击行为中,而物联网尚处于萌芽期,其发展的结果是:任意物品和设施都有可能24小时不间断地产生状态信息。而这背后的推动力,则是硬件成本的快速下降:每年存储每GB信息的存储成本降低50%,这使得电子设备的无所不在成为可能。电子信息的表现形式多种多样,用户访问网站的海量点击记录数据、用户UGC(全称User Generated Content,即用户生成内容)产生的大量图片和视频、电子商务网站的在线购买记录、通信数据、RFID(全称Radio Frequency Identification,即射频识别)、医疗信息……数据无处不在,无时不在。 毫无疑问,我们已经身处一个真正的“大数据”时代,但关于大数据的确切定义,目前尚无统一获得公认的说法。Wikipedia里给出的颇具实用主义色彩的定义为:所谓“大数据”,是指数据量太大以至于目前手头的数据管理工具已经不便于管理数据。 IBM则用3V(Volume、Velocity、Variety)来描述大数据所拥有的特点。大容量(Volume)指数据体量巨大,这是一般人最直观的感受;多形式(Velocity)是从数据类型的角度来看的,数据的存在形式从过去结构化数据为主转换为形式多样,既包含传统的结构化数据,也包含类似于XML/JSON形式的半结构化形式和更多的非结构化数据;高速率(Variaty)则是从数据产生效率角度来说明问题:数据以非常高的速率到达系统内部,比如大量传感器的实时数据传输,股票的实时交易数据等。 后来,在3V的基础上,又增加了Value(价值)这个维度来描述大数据的特点,即数据价值密度低,因此需要从低价值的原始海量数据中进行深度挖掘和计算,总结出具备高价值的数据。 IDC更侧重于从技术角度来说明“大数据”概念:大数据处理技术代表了新一代的技术架构,这种架构通过高速获取数据并对其进行分析和挖掘,从海量形式各异的数据源中更有效地抽取出富含价值的信息。 Google是大数据潮流的重要推动者,Google首席经济学家Hal Varian是这样阐述大数据作用的:海量数据可广泛获得,所稀缺的是如何从中挖掘出智慧和观点。 综合上面各种观点可以看出,从具备4V特性的大量数据中挖掘高价值知识是各界对于大数据的一个共识。 美国政府在2012年初提出了“大数据研究发展计划”,这是可以和克林顿执政时期提出的“数字高速公路”计划相媲美的战略性引导规划,旨在提高美国从大型复杂数据集中提取知识和观点的能力。在这个计划里,包括美国国防部在内的六个联邦政府的部门和机构宣布新的2亿美元投资,以提高从大量数据中收集、访问、组织和发现信息的工具和技术水平。相信其他国家包括中国促进相关产业的政策也会很快到来。 由于数据量增长速度太快,传统的数据管理工具已经不能高效地对其存储和处理,新时代呼唤新技术。 最近三年人类产生的信息量已经超过了之前人类历史上所产生的所有信息之和,如果再过10年回过头来看,这个数字其实也不算体量巨大,要知道,数字信息量正在以每五年增加10倍的速度加速扩张。 技术范型转换 大数据之翼 传统的数据处理主要使用关系型数据库技术,数据库企业巨头Oracle是这一时期的代表企业。随着大数据时代的到来,传统关系型数据库在可扩展性方面的缺陷逐渐暴露出来,即使采用并行数据库集群,最多也只能管理百台左右的机器,而且这种并行数据库要求高配置服务器才可正常运转,因此,以其管理海量数据成本之高可以想见。 对于很多应用场景,尤其是互联网相关应用,并不像银行业务等对数据的一致性有很高的要求,更看重数据的高可用性以及架构的可扩展性等技术因素。NoSQL数据库应运而生,作为适应不同应用场景要求的新型数据存储与处理架构,其和传统数据库有很强的互补作用,而且应用场景更加广泛。Yahoo!公司部署了包含4000台普通服务器的Hadoop集群,可以存储和处理高达4PB的数据,整个分布式架构具有非常强的可扩展性。NoSQL数据库的广泛使用代表了一种技术范型的转换。 大数据处理的目标是从海量异质数据中挖掘知识,包含了数据源收集、数据存储管理、数据分析与挖掘以及数据展现与获取等几个序列进行的步骤。 原始数据源来源各异,就是说既包含传统的企业结构化数据,也包含从移动设备、互联网用户数据、传感器等收集到的半结构化或者非结构化数据。由于很多数据形式不规整,包含噪音,首先需要从原始数据中进行数据抽取,获得后续分析所需的信息。之后对于海量数据,将其存储进入NoSQL数据库中,与传统数据库不同的是:NoSQL数据库不追求应用场景的统一,而是针对不同类型的应用有专门的NoSQL数据库来进行存储管理,这种类似于垂直定制的技术方案更能适应具体的应用场合,比如对于社交网络数据的存储就更适合使用Neo4j等图式数据库;对于实时响应要求高的场合使用HBase等列式数据库更好,等等。对于海量数据的后台批处理任务,目前Hadoop是获得最广泛使用的分布式存储与计算系统,通过HDFS分布式文件系统来对数据进行存储,使用MapReduce计算框架对数据进行处理,系统本身负责数据的高可用性以及系统的可扩展性、容错性等复杂管理任务,具体应用开发人员只要关注业务逻辑本身即可,大大促进了相关应用的开发效率。 在数据存储与基本处理层之上,是数据挖掘与分析技术层。大数据处理的目标是沙里淘金,从海量原始数据中挖掘领域知识是其根本目的,尽管NoSQL数据库提供了数据存储场所与简单的读写处理,但要挖掘更深层的知识,更依赖于利用数据挖掘、机器学习、时空序列分享等复杂技术手段来从数据中获取知识。 数据可视化也是大数据处理中的关键一环,其主要目的是将挖掘出来的知识以形象、易于理解的形式呈现给用户,是所挖掘知识的具体表现方法。之后,就可以在各种不同的数据接收设备上来对挖掘出的知识进行获取。 海量原始数据经过上述层次处理步骤,就转换为用户易于理解和接受的知识,目前各种层次的相关技术与系统方兴未艾,都处于高速发展过程中。 无分行业 新技术下的商业“炼金术” 对于大数据潮流而言,新的数据形式和数据需求催生了新的技术范型,而新的技术范型引发了新的商业机遇。这种影响是深刻而广泛的,从引导潮流的互联网公司到传统IT行业企业,从金融行业到传统零售行业,无不受其影响。 互联网公司:Netflix Netflix是在线网络视频点播互联网公司,根据美国市场研究公司IHS测算,Netflix 2011年在美国的在线电影收入已经超过苹果,市场份额达到45%,苹果则从61%下滑至32%。Netflix从本质上说是一家大数据公司。以2011年的数据为例,Netflix用户超过2500万;每天大约3000万剧集;仅在2011年最后3个月中,被观看的视频流就超过了20亿个小时;每天大约400万次用户打分;每天大约300万搜索。此外,Netflix还会尝试分析用户的地理定位数据、设备信息,以及从Facebook和Twitter获得的社会媒体数据来为更加准确的个性化推荐打下基础。Netflix公司高级数据科学家Mohammad Sabah曾对媒体表示,Netflix正在采集并分析惊人的数据来试验算出下一步你想要看什么电影。他还说,用户选择的电影已经有75%来自Netflix的推荐。 传统IT公司:IBM 2011年2月,IBM新推出的超级电脑“沃森”(Watson)在美国最受欢迎的老牌智力问答竞猜节目《危险边缘》(Jeopardy!)的人机智能问答比赛中,大比分超过人类参赛者赢得了比赛。要知道,《危险边缘》节目中提出的问题五花八门、无所不包,几乎覆盖了人类的所有知识领域,“沃森”在节目中表现出色,战胜了该节目历史上两位最成功的选手詹宁斯和鲁特。 “沃森”采用分布式计算架构,整个系统拥有15TB内存、2880个处理器、每秒可进行80万亿次运算。沃森的海量“知识库”是其能够战胜人类的关键,它不仅包含了语义词典等结构化信息,更多的知识要依赖系统从互联网网页等大量非结构化数据中进行挖掘,比如通过挖掘可以知道《勇敢的心》是一部1995年发行的电影,其导演是梅尔吉布森,主要演员包括梅尔·吉布森、苏菲·玛索等。 “沃森”在接收到主持人的问题后,利用深层语言分析技术分析问题所属于的类型(电影、图书、谜题、地理等)以及问题的焦点所在,并通过问题分解算法把复杂问题分解为若干单一问题,之后利用搜索技术和自然语言处理技术从海量知识库中产生多个候选答案,根据诸多不同尺度评估这些候选答案匹配问题的程度。IBM研发团队为“沃森”开发的100多套算法可以在3秒内解析问题并检索知识库,然后再筛选出最可能的答案并输出成人类语言,形成最终答案。 “沃森”在《危险边缘》中的成功获得了广泛关注,其商业化举措将被首先应用在医疗和金融行业。美国哥伦比亚大学医疗中心和马里兰大学医学院已与IBM公司签订合同,两所大学的医疗人员将利用沃森更快、更准确地诊病和治病。 金融:Derwent基金 基金公司可以从大数据中窥探并预测股市走向吗?英国伦敦基金公司Derwent Capital Markets认为这个问题的答案是肯定的。他们启动了金额为2500万英镑的专项基金,通过分析Twitter上发表的微博内容,统计大众对于股市的信心和情绪,依此来预测股市走向,并在实际运作中获得了较好的收益。在2010年7月的股灾中,该基金能够维持1.85%的报酬率,领先于S&P 500指数和基金研究公司Hedge Fund Research的收益率。 这一基金采纳了美国印第安纳大学Johan Bollen等人的研究结果:研究者采用两种情绪追踪工具来分析Twitter中展现的公众情绪,其一是比较Twitter中正面和负面评论的比例,其二则利用了Google设计的一款工具,评价人们的6种心理状态,包括冷静、警惕、确定、充满活力、善意、愉快。Bollen发布的一项研究结果中,使用社交网络去预测道琼斯指数的走势,准确率达到87.6%。此外,美国麻省理工学院的研究人员根据情绪词将Twitter内容标定为正面或负面情绪。结果发现,无论是如“希望”的正面情绪,还是如“害怕”、“担忧”的负面情绪,其占总数的比例,都预示着道琼斯指数、标准普尔500指数、纳斯达克指数的下跌。研究者据此认为,只要是情绪的突然爆发,无论希望或担忧,都反映出人们对于市场的不确定性,因此能预测股市之后的走向。 传统零售企业:沃尔玛
传统零售商巨头沃尔玛和惠普公司进行合作,构建能够存储4PB信息的数据仓库,用来记录全球6000多个销售终端获得的每日超过2.6亿笔交易数据。通过应用机器学习技术,沃尔玛可以从零售数据中挖掘出相关知识,用于评估其定价策略的合理性和广告投放的效益,并更好地指导其全球供应链的配置。 大数据处理技术代表了新一代的技术架构,这种架构能从海量形式各异的数据源中更有效地抽取出富含价值的信息。 张俊林,新浪微博研发人员,中科院软件所博士,《这就是搜索引擎:核心技术详解》一书作者。 “大数据”,在路上 大数据概念最早由麦肯锡提出,之后获得了全球范围内工业界、学术界、商业界的追捧与推动,形成了产业共振。大量初创公司、老牌互联网与IT公司、商业机构都轰轰烈烈地投入其中。 财大气粗的巨型公司致力于提供“大数据”存储与计算的基础架构与平台,Amazon的云存储与弹性计算平台(AWS/EC2)、微软的Azure云计算平台、Google的App Engine都是其中的佼佼者。 通用的云存储与计算平台可以对其他企业和机构提供按需服务,这对于初创企业节省创业成本起到了很大的推动与促进效用,在创业初期用户较少的情况下,可以花费较少的租金租用云平台的基础设施,一旦流量激增,只需扩大资源租用数量就可以快速满足暴增的用户请求。相较于传统的创业企业自己维护存储与计算系统的方式,这种平台租用的方式不仅能够节省创业成本,也增加了IT资源管理的快速响应和灵活性。Amazon公司云平台已经为成千上万家创业公司和机构提供相关服务,比如近两年名声大噪的图片共享型社交网站Pinterest就租用了亚马逊AWS存储服务,纳斯达克每天会上传超过50万个文件到Amazon云存储平台。游戏化平台服务公司BigDoor表示:“AWS平台帮助我们以极低的成本快速升级系统。在任何时候,我们都有运转良好的12台数据库服务器、45台应用服务器、6台静态服务器和6台分析服务器。如果流量或处理能力超过了目前的服务能力,我们的系统会自动升级;如果不需要就会自动降级,从而节省费用。” 在这波“大数据”浪潮中,更多的中小型创业公司逐浪起航,其中既有Cloudera、MapR、HortonWorks这种完善分布式计算生态系统的技术型公司,也有Dropbox、Zillabyte、Decide这种面向企业和消费者直接提供“大数据”服务的初创公司。 Cloudera、MapR和HortonWorks都是目前维护与改进Hadoop平台的主力技术公司,它们一方面改进现有系统的性能和功能方面的缺点,同时也在Hadoop平台的易用性方面下了很大功夫,以促进这个平台的更广泛流行。类似的技术公司还包括文档NoSQL工具MongoDB的开发方10gen等很多新型技术创业公司,它们为整个“大数据”生态体系提供了基础的技术平台。 Dropbox是免费网络文件同步工具,用户可以方便地存储和共享感兴趣的各种类型的文件,自2007年创立以来,Dropbox正以年用户增长10倍的数据获得用户的广泛欢迎;Zillabyte提供了一系列大数据分析算法和工具,帮助企业用户对海量数据进行深入挖掘以辅助企业决策;而Decide.com则为消费者提供了对大数据进行实时商业分析服务,比如它会通过大量数据的趋势分析,告知用户何时以什么价格买入某类电子产品是最适宜的。 这里只列举了少量有代表性的“大数据”相关商业公司,事实上越来越多的商业公司已经意识到“大数据”所蕴含的商业机遇并陆续投入其中。就目前“大数据”相关的整个生态系统而言,我们可以说,是数据爆炸催生了新的技术范型与挑战,而新的技术范型引发了新的商业机遇。 “大数据”对技术的高要求以及“数据资产”的私密性,决定了“大数据”最终只能是少数人的游戏,但好消息是,这场华丽游戏才揭开序幕,在游戏结束之前,至少每个人都有加入的权利。
更多阅读
关于新课标下的小学语文习作教学
关于新课标下的小学语文习作教学《语文课程标准》指出“语文课程应致力于学生语文素养的形成和发展”、“写作能力是语文素养的综合体现”。作文教学的重要性是不言而喻的。然而,大多数小学生怕写作文,教师也怕教作文。一、作文难,可
新课标下的初中物理教学反思 初中物理课堂教学反思
-新课标下的初中物理教学反思李惠明河源市紫金县第二中学,广东河源517400初中物理教学反思就是一种以追求物理教学实践合理性为目的,在教学实践过程中不断发现、思考、解决问题,对初中物
惠安广海中学“新课程背景下的有效教学策略研究”课题研究 惠安广海中学校花
惠安广海中学“新课程背景下的有效教学策略研究”课题研究
新会计准则下的开办费财税处理 新准则开办费会计分录
(2012-03-05 )新会计准则下的开办费财税处理开办费的财税处理问题,一直以来存在着很多争议和观点。笔者现结合实务中的处理方式,把涉及到开办费的财税事项重点陈述如下。一、基本规定(一)新会计准则规定新会计准则规定非常明确,计入“管
新媒体语境下的“新闻”界定 新媒体时代的新闻传播
谭天 刘云飞 丁卯 【内容摘要】新闻定义的考究和争论一直没有断过,在新媒体语境下,新闻传播有了很大的变化,因此,人们更要重新认识“什么是新闻”。本文以客观、发展、全面的视角来探讨新媒体语境下的新闻定义,笔者认为新闻是一个相对模