数据挖掘招聘 走近数据挖掘



——访中国科学院虚拟经济与数据科学研究中心常务副主任 石勇

   2007年5月28日至30日,为期三天的第七届国际计算科学大会首次在中国成功举办。这次会议是世界计算科学研究人员展示其科学成果的盛会,来自43个国家和地区的700余名计算科学技术领域的专家学者、企业代表汇聚一堂,集中展示国内外近年来在计算科学与技术领域内的最新科研成果,同时为来自世界各国的计算科学和技术人员提供了一次交流新方法和新思想并拓展合作的机会。

   计算科学是一门包含各种各样与计算和信息处理相关主题的系统学科。这次大会以“通过计算促进科学和社会进步”为主题,围绕“可扩展的科学计算方法”,“高级软件开发工具”,“网格计算”,“高级数值计算方法”,“计算科学技术在生物学、环境科学、金融等领域的应用”等诸多热点问题进行了研讨。

   在这次大会的众多科学信息和科学成果中,记者捕捉到了“数据挖掘”这一概念,并采访了本次大会的主席、中国科学院虚拟经济与数据科学研究中心常务副主任石勇教授。

aihuau.com

 数据挖掘招聘 走近数据挖掘
   石勇教授1982年毕业于西南石油学院数学系,1983年就读于大连理工大学MBA班,于1985年前往美国堪萨斯大学攻读管理科学博士学位,是我国改革开放后第一批公费出国留学的一分子。在美国学习、研究、工作的十九年中,石勇取得了很多卓越的成就,并先后涉及了信息科学、管理科学、生产计划、财务会计、农业政策、石油工程、科学预测等众多的领域。自1990年开始,以美国为首的西方先进国家凭借高科技的飞速发展,已进入了以数据挖掘为支撑技术、以网络为基础的新的知识管理时代。石勇从1998年开始将多目标决策线性规划的理论与计算机应用结合,在美国First Data公司开展数据挖掘的商业应用,取得很好的效果。2000年起,石勇开始将数据挖掘在银行信用征信评分概念介绍到国内,并且根据自己的科研经验注意到,我国数据挖掘与知识管理无论在理论创新上,还是在应用实践上都与国际水平有相当的距离,更没有一个研究力量集中的科研中心。而数据挖掘又恰恰是国民经济“十五计划” 要实行行业和社会信息化的尖端技术。为了促使这一新兴交叉科学在中国迅速地跨越式发展,他致书中国科学院领导,提倡成立“中国科学院数据挖掘与知识管理研究中心”,并于2004年回到祖国,筹建中国科学院数据技术与知识经济研究中心,从此更是与数据挖掘结下了不解之缘。

   强大的应用技术

   有关数据挖掘的起源,石勇教授向记者介绍:随着计算机的大量应用,各种数据广泛存在,数字,图形、文字、表格、声音等都是数据的种种表象,可谓是数据的海洋。要从这数据的海洋中寻找有用的资料,就要靠处理数据的手段来挖掘。人类分析数据到现在已经有上千年的历史了,从远古时代人类开始在木头上计数开始就是一个简单的数据分析过程,但是近代数据分析是用统计学的概念去处理数据。统计学在真正的经济生活中的应用最早是从英国和欧洲开始,随着二战的结束,一些非统计的数据分析工具,如人工智能方面的技术开始应用到行业经济中。到了二十世纪九十年代,美国的一些应用者和学者把在数据海洋中寻找知识的过程叫做“数据挖掘”。

   “数据挖掘”(Data Mining)是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是由于企业数据库的广泛使用,存在大量的数据,并且迫切需要从这些数据中获取有用的信息的知识。而数据挖掘与传统的数据分析,如查询、报表、OLAP(联机应用分析)、统计分析等数据分析技术的本质区别是数据挖掘是在明确假设的前提下去挖掘信息、发现知识。

   作为一门应用技术,数据挖掘可谓涵盖广泛。尤其在发达国家,数据挖掘技术的触角已经伸向了各行各业。但是作为大型技术的应用,在国外最早成功应用的例子要数药物公司。任何一种药都可能是数十种化合物的不同组合,而这些上百种或上千种化合物的组合就要通过筛选来进行制药,最终进行临床实验,这个过程也可以看作是数据挖掘。接下来,国外的数据挖掘技术主要应用在了银行业,典型的例子就是信用卡,用数据挖掘技术来分析银行客户的信用等级和资产发展趋势,用以规避银行风险。从此,数据挖掘就广泛地应用到国外金融行业,比如后来的保险业,借以此技术来防止保险欺诈行为。以及慢慢渗透到税收、零售行业以及国家安全系统的保障等等。

   但是,在谈到数据挖掘技术在国内的发展时,石勇教授坦言目前中国多数行业还没有完全建立成熟的数据挖掘技术体系。其实,数据挖掘在九十年代就进入了中国,但是在出现后的一段时间内就逐渐了“冷”了下去,这主要是因为中国企业当时并没有建立完善的数据库。随着中国经济的发展和国内企业的不断壮大,现在许多中国企业都有这种需求,并开始引用数据挖掘技术,不过还处于相对比较初级的阶段。和国外大企业自身就拥有强大的数据挖掘技术团队的情况相比较,因为专业人才难以培养、企业制度和软件开发等原因的欠缺,也使得国内企业自己建立和发展数据挖掘技术团队变得格外困难。由此可见,经济的发展情况和企业的规模也将成为限制数据挖掘技术发展的必然条件。

   渐显的商业价值

   现在,由于各行业业务信息化的实现,商业领域产生了大量的业务数据,这些数据或是为了分析的目的而收集的,或是为了纯粹的商业运作而产生。分析这些数据不再是单纯为了研究的需要,更主要是为商业决策提供真正有价值的支持信息。目前所有企业面临的一个共同问题是:企业数据量非常大,而其中真正有价值的信息却很少。因此就要求通过数据挖掘技术的使用对大量的数据进行深层分析,获得有利于商业决策的信息。用石勇教授的一句话来说就是:“数据挖掘作为信息技术发展的关键技术正显现出其巨大的商业价值。”

   我们以最早应用数据挖掘技术的药物公司来举例,数据挖掘的优势不仅可以体现在药物的配制方面,还可以很明显地体现在医药企业的营销方面。如一家制药公司可以通过分析最近的销售行动及其结果以改进高位值医药的目标市场,并决定哪些市场活动将在后续的几个月有最大的效果。数据需要包括竞争对手的市场活动,患者的分布情况,患者的需求和当地医疗系统的信息等。结果可以通过广域网分发到各销售队伍,它可以使地区代表从决策过程中关键属性的视点来检视这些建议。随着这一过程的进行,数据仓库的动态分析允许来自整个组织的最好的实践应用于特定的销售环境。

   再以银行业为例,一个信用卡公司可利用它的巨大的客户交易数据仓库来确定客户对新的信用卡中最感兴趣的产品。数据挖掘方法可以帮助确定一个客户对新产品的亲和力属性。最近的统计已经表明,采用数据挖掘方法对指定目标的邮寄活动,费用可以节省为原来的1/20。

   除了传统的数据挖掘应用领域,越来越多的IT企业也看到了这一诱人的市场,纷纷加入到数据挖掘工具的开发中来,并获得丰厚的回报。例如微软公司在它的最新的关系数据库系统SQL Server 2000加入了先进的数据挖掘功能,在基于NT的数据库软件市场中打败了Oracle公司,成为销售额最大的产品。

   从种种迹象表明,数据挖掘这一研究领域的发展充满了机遇和挑战。每一个这样的例子有一个共同的清晰的基础,他们利用在数据仓库里隐藏的关于客户笃信的知识,来减少费用并改善客户关系的价值。这些组织现在可以集中精力于最重要的客户和有前景的商务,并设计可以最好实现这些目标的市场策略。

   当然,在某些行业中,数据挖掘技术的推广不仅能够实现商业利润的保障,也可以为行业经济创造出一个合理、有序、健康的环境,如避免价格战。在这个问题上,石勇教授也给出了肯定的回答。他以石油行业为例子向记者说明了这一观点。石油行业是一个拥有庞大数据信息的行业,无论是在油藏勘探方面还是在石油销售方面,都需要大量数据来支撑。国外大型的石油公司,如与中国科学院虚拟经济与数据科学研究中心进行合作的BHP Billiton公司,将会在公司的发展中引用数据挖掘技术,既能节省开采时间,又可以合理制定石油价格。但是,与之相反的,目前国内的石油行业在运营中很少应用到数据挖掘技术,彼此间的竞争也局限于石油的价格。

   与石油行业相似的情况也存在于零售业。数据挖掘在零售业中有着不可替代的巨大作用,各大超市可以通过每日营业数据调查出顾客的最大需求,安排货物摆放位置,从而扩大市场,妥善维护客户关系管理。也可以通过数据挖掘技术找出市场上每种商品的一种稳定价格,保证自己的利润点,避免无意义的价格战。

   总的来说,利用数据挖掘技术支持商业决策是一种基于数据分析的科学的决策方式,在一定程度上可以避免主观或经验决策中一些先天的不足,基于数据挖掘技术的商业领域的决策支持将会在实际应用中得到更加广泛的认可。

   中心的成功运作

   在和石勇教授的谈话中,他总是把“中心”挂在嘴边,这个“中心”指的就是中国科学院虚拟经济与数据科学研究中心,而我们也自然把话题围绕着“中心”展开来。石勇教授向记者介绍到,中国科学院虚拟经济与数据科学研究中心其实是由三个单位合并在一起的。第一个单位就是中科院研究生院管理学院院长成思危先生在五年前发起成立的虚拟经济研究中心,主要研究中国的市场经济变化等重要的战略议题和决策;第二个组成部分是石勇教授在回国后,应中科院的领导要求筹建的数据技术与知识经济研究中心;第三个部分,就是由从日本归国的石敏俊教授所主持的区域经济研究团队组成。

   在谈到中心的研究方向时,石勇教授反复强调了中心在研究方面的独特性,如由成思危先生独创出来的“虚拟经济”,不仅已经写进了党的十六大报告,更是成为了中心乃至我国在此领域区别于其他国家研究的重要标志。另外,在数据挖掘这一专业上,中心也独特地应用多目标数学规划来研究数据挖掘技术。石勇教授说:“我们中心要坚持做自己的东西,用最优化来解决问题。最优化的概念最简单来说,就是给你一些备选题,在这些备选题中寻找最佳选择方案,也就是最优解。使用最优化的方法最基本的特点就是用数学方程和数学规划来进行数据分析。用最优化来解决数据问题前人已经进行了很多成功的应用,而我们现在就在用我们自己研究的领域,也就是多目标数学规划来做数据挖掘。它也是最优化的一种方法。”他早在美国就创立的以多目标线性规划为基础的数据挖掘与知识管理方法和理论已成美国为信用评分、保险精算、银行信贷和在线股票交易等商业领域的前沿技术。

   由于这些具有独特性的技术,中国科学院虚拟经济与数据科学研究中心为国家进行一些规模较大项目的研究,比如目前正在积极推动为中国人民银行建立作为我国信息化基础建设之一的全国个人征信评价系统。该系统根据中国人民银行5亿6千万自然人的信息开发,运用先进的数据挖掘和统计分析技术,对信贷违约出现的概率进行计算。所依据的数据运算软件是中心自主研发的Optminer 2.0软件。该系统在不久的将来正式服务全国13亿人口。

   另外,与企业的合作也是中心的重要发展战略之一。据了解,中心自2005 年 4 月开始与澳大利亚BHP Billiton 合作研究项目:石油勘探中的数据挖掘,并将持续到2008年4月。双方合作由澳大利亚 BHP Billiton 提供了约10GB左右的石油勘探海量数据,由中国科学院虚拟经济与数据科学研究中心通过开发切实可行的能应用于油气勘探的数据挖掘技术与软件,该项目所采用的技术将主要基于最优化的数据挖掘技术,以及统计,决策树,神经网络,模糊逻辑和计算机编程技术。目的是解决石油勘探中的大规模数据处理,分析,整合,进而得出准确的预测。在两年多的合作中,BHPB公司的负责人对中心的工作表示了充分的肯定,并希望将合作持续下去。

  

爱华网本文地址 » http://www.aihuau.com/a/9101032201/358650.html

更多阅读

数据挖掘产品 IBM SPSS Modeler 新手使用入门 spss modeler 教程

IBM SPSS Modeler 简介作为 IBM 分析与预测解决方案的重要组成部分,IBM SPSS Modeler 是一组数据挖掘工具,通过这些工具可以采用商业技术快速建立预测性模型,并将其应用于商业活动,从而改进决策过程。随着于 2010 年其新版本 14.1 的发

天猫大数据挖掘解密 数据解密

天猫大数据挖掘解密天猫一天能产生多少数据?截至2013年底,天猫已经汇集了8万商家,10多万品牌,服务近5亿消费者。2013年“双11”的那些数字仍就令人激动:6分钟07秒,成交10亿;38分钟05秒,成交50亿;下午1点钟,我们的成交已经超过了2012年的190亿;

数据挖掘概念与技术 数据挖掘平台

最近读了 jiawei han , micheline kamber 所著的数据挖掘概念与技一书,以下为总结:第一. 概述一.挖掘来源:1. 关系数据库2. 数据仓库3. 事务数据库说明:包含

徽剑IT评点:撕下大数据下的数据挖掘面纱

一、大数据没那么神秘二、数据是会说话的三、数据挖掘的流程四、核心之一:领域专家建模五、核心之二:数据采集六、记住,大数据其实不是那么数学和计算机七、可以的应用一、大数据没那么神秘最近一年来谈大数据的很火,到处都在说

Web使用记录挖掘 web数据挖掘

Web使用记录挖掘 1.介绍在web上执行业务流程易用性和快速性是电子商务迅速增长的关键驱动力量。而且电子商务也把最终用户卷入了一场深重的革命中。跟踪用户浏览行为甚至个体鼠标点击的能力将商家和最终用户前所未有的拉近了。现在

声明:《数据挖掘招聘 走近数据挖掘》为网友用实力征服分享!如侵犯到您的合法权益请联系我们删除