支持向量机及其应用 支持向量机建模及应用
数据挖掘是机器学习、数据库和统计学三者相结合的产物。数据挖掘首先要确定挖掘的任务或目的,确定了挖掘任务后,就要决定使用什么样的挖掘算法,选择了算法后就可以实施数据挖掘操作,获取有用的模式。
分类作为数据挖掘中一项非常重要的任务,目前在商业上应用最多(比如分析型CRM里面的客户分类模型,客户流失模型,客户盈利等等,其本质属于分类问题)。分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个,从而可以用于预测。目前,分类方法的研究成果较多,判别方法的好坏可以从三个方面进行:
1)预测准确度(对非样本数据的判别准确度);
2)计算复杂度(方法实现时对时间和空间的复杂度);
3)模式的简洁度(在同样效果情况下,希望决策树小或规则少)。
近年来,对数据挖掘中分类算法的研究是该领域中一个热点,对不同分类方法都有许多对比研究成果。没有一个分类方法在对所有数据集上进行分类学习均是最优的。目前在数据挖掘软件中运用的最早也是最多的分类算法是神经网络,它具有对非线性数据快速建模的能力,通过对训练集的反复学习来调节自身的网络结构和连接权值,并对未知的数据进行分类和预测。但是由于神经网络是基于经验最小化原理,它有如下几个固有的缺陷:
1)结构复杂(神经元的结构,还有输入层,隐含层,输出层组合起来的复杂结构)
2)容易陷入局部极小
3) 容易出现过学习问题,也就是训练出来的模型推广能力不强
为了克服传统神经网络的以上缺点,Vapnik提出了一种新的基于统计学习理论的机器学习算法―支持向量机,正式奠定了SVM的理论基础,由于SVM扎实的理论基础,其目前已经成为继神经网络之后的的机器学习领域研究热点之一。
二、支持向量机核心思想
支持向量机实现是通过某种事先选择的非线性映射(核函数)将输入向量映射到一个高维特征空间,在这个空间中构造最优分类超平面。我们使用使用SVM进行数据集分类工作的过程首先是通过预先选定的一些非线性映射将输入空间映射到高维特征空间(如下图)
使得在高维属性空间中有可能对训练数据实现超平面的分割,避免了在原输入空间中进行非线性曲面分割计算。SVM数据集形成的分类函数具有这样的性质:它是一组以支持向量为参数的非线性函数的线性组合,因此分类函数的表达式仅和支持向量的数量有关,而独立于空间的维度。在处理高维输入空间的分类时,这种方法尤其有效。其工作原理如下图
三、支持向量机在数据挖掘中的应用
鉴于支持向量机扎实的理论基础,并且和传统的学习算法想比较(比如人工神经网络),SVM通过提高数据的维度把非线性分类问题转换成线性分类问题,较好解决了传统算法中训练集误差最小而测试集误差仍较大的问题,算法的效率和精度都比较高。所以近年来该方法成为构造数据挖掘分类器的一项新型技术,在分类和回归模型中得到了很好的应用。但由于支持向量机出现的时间在90年代中期,人们对支持向量机的应用主要集中在模式识别方面,对于将支持向量机应用于数据挖掘的研究刚处于起步阶段。
目前,用SVM构造数据挖掘中的分类器来处理海量数据主要面临以下两个困难:
(1)SVM算法对大规模训练样本难以实施
由于SVM是借助二次规划来求解支持向量,而求解二次规划将涉及m阶矩阵的计算(m为样本的个数),当m数目很大时该矩阵的存储和计算将耗费大量的机器内存和运算时间。
针对以上问题的主要改进有有J.Platt的SMO算法、T.Joachims的SVM 、C.J.C.Burges等的PCGC、张学工的CSVM以及O.L.Mangasarian等的SOR算法
(2)用SVM解决多分类问题存在困难
经典的支持向量机算法只给出了二类分类的算法,而在数据挖掘的实际应用中,一般要解决多类的分类问题。可以通过多个二类支持向量机的组合来解决。主要有一对多组合模式、一对一组合模式和SVM决策树;再就是通过构造多个分类器的组合来解决。主要原理是克服SVM固有的缺点,结合其他算法的优势,解决多类问题的分类精度。如:与粗集理论结合,形成一种优势互补的多类问题的组合分类器
四、考虑一点商业智能中应用
支持向量机是基于统计学习理论的新一代学习机器,具有很多吸引人的特点,它在函数表达能力、推广能力和学习效率上都要优于传统的人工神经网络,在实际应用中也解决了许多问题,但由于SVM的出现比较晚,还处于发展阶段,尤其是其算法实现方面存在着效率低下的问题,这也是限制SVM很好地应用于数据挖掘中的一个瓶颈。可以考虑对传统支持向量机进行扩展,实现多分类支持向量机。可以考虑运用于现在的客户智能系统当中,现有客户智能系统采用的分类技术都是传统的数据挖掘技术:
比如神经网络,决策树,回归分析等等。根据最后的图,大家可以看到现在的分析型CRM的整个功能和技术架构,如果把这种新兴的数据挖掘技术-支持向量机,运用于商业智能,相信是种不错的尝试。
更多阅读
联系Y470拆机教程及保养 y470拆机教程
联系Y470拆机教程及保养——简介机器用了两年多了,现在用起来感觉很慢,拿出来拆机保养下,去除下机器里面的灰尘,主要是风扇的灰尘,用了两年多肯定很多灰尘了。下面小编就一步一步为大家分享下。联系Y470拆机教程及保养——工具/原料联系
函数指针及其应用 函数指针的应用
0推荐http://aoqingy.spaces.live.com/blog/cns!153c2d72af27eb1c!295.entryC语言专题(二):函数指针及其应用函数指针:函数的入口地址C程序变量驻留在程序内存空间的某个地址,它所在的地方取决于变量类型(自动变量、静态变量或全局变量等)
WM6.1刷机教程及黑屏问题解决方法 小米黑屏刷机教程
2009-03-30 19:01:41|分类: 电脑技巧 |字号订阅WM6.1刷机教程及黑屏问题解决方法一、刷机前的准备:将SD卡格式化为FAT32。将解压缩后的四个文件复制到格式化好的SD卡中(卡上只有这4个文件),然后将SD卡插入PDA。四个文件为:DiMa_B_A02_X50v
李德仁:智慧城市及其应用 2013年11月04日 82 来源:国脉物联网 东国税通字2013 82
李德仁:智慧城市及其应用2013年11月04日TAG:李德仁智慧城市中科院院士李德仁教授发言下午的会议首先邀请中国科学院院士、中国工程院院士、武汉大学教授李德仁先生,李院士是摄影测量与遥感学方面的专家,他首创的选权迭代法被国际测量学
*弩机结构及滑轮弓 弩机结构原理图
原文地址:弩机结构及滑轮弓作者:白云偏心轮由于弓弩的偏心轮的圆心不在滑轮的中心,偏心轮转动时所运动的半径就不一样,由短半径运动到长半径,所产生的拉力就不一样,由费力杠杆变成了省力杠杆,所以滑轮弓拉开时开始需要很大的力量拉开,然后力