随机森林算法特征选择随机森林算法原理基于随机森林的特征选择算法-爱华网

导读：爱华网网友为您分享以下“基于随机森林的特征选择算法”资讯，希望对您有所帮助，感谢您对aIhUaU.com的支持!

第４４卷第１期吉林大学学报（工学版）Ｖ０１．４４Ｎｏ．１２０１４年１月ＪｏｕｒｎａｌｏｆＪｉｌｉｎＵｎｉｖｅｒｓｉｔｙ（ＥｎｇｉｎｅｅｒｉｎｇａｎｄＴｅｃｈｎｏｌｏｇｙＥｄｉｔｉｏｎ）Ｊａｎ．２０１４

基于随机森林的特征选择算法

姚登举１’２，杨静１，詹晓娟３

（１．哈尔滨工程大学计算机科学与技术学院，哈尔滨１５０００１；２．哈尔滨理工大学软件学院，哈尔滨１５００４０ｉ３．黑龙江工程学院计算机科学与技术学院，哈尔滨１５００５０）

摘要：提出了一种基于随机森林的封装式特征选择算法ＲＦＦＳ，以随机森林算法为基本工具，以分类精度作为准则函数，采用序列后向选择和广义序列后向选择方法进行特征选择。在ＵＣＩ数据集上的对比实验结果表明，ＲＦＦＳ算法在分类性能和特征子集选择两方面具有较好的性能。

关键词：人工智能；随机森林；特征选择；封装式

中图分类号：ＴＰｌ８文献标志码：Ａ文章编号：１６７１—５４９７（２０１４）ｏ卜０１３７—０５

ＤｏＩ：１０．１３２２９／ｊ．ｃｎｋｉ．ｊｄｘｂｇｘｂ２０１４０１０２４

Ｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎａｌｒｉｔｈｍｂａｓｅｄｏｎｒａｎｄｏｍｆｏｒｅｓｔ

ＹＡＯＤｅｎｇ－ｊｕｌ～，ＹＡＮＧＪｉｎ９１，ＺＨＡＮＸｉａｏ－ｊｕａｎ３

（１．ＣｏｌｌｅｇｅｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＨａｒｂｉｎＥｎｇｉｎｅｅｒｉｎｇＵｎｉｖｅｒｓｉｔｙ，Ｈａｒｂｉｎ１５０００１，Ｃｈｉｎａ；２．ＳｃｈｏｏｌｏｆＳｏｆｔｗａｒｅ，ＨａｒｂｉｎＵｎｉｖｅｒｓｉｔｙｏｆＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，Ｈａｒｂｉｎ１５００４０，Ｃｈｉｎａ；３．ＣｏｌｌｅｇｅｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＨｅｉｌｏｎｇｊｉａｎｇＩｎｓｔｉｔｕｔｅｏｆＴｅｃｈｎｏｌｏｇｙ，Ｈａｒｂｉｎ１５００５０，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ａｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｒａｎｄｏｍｆｏｒｅｓｔ（ＲＦＦＳ）ｉｓｐｒｏｐｏｓｅｄ．Ｔｈｉｓａｌｇｏｒｉｔｈｍａｄｏｐｔｓｒａｎｄｏｍｆｏｒｅｓｔａｌｇｏｒｉｔｈｍａｓｔｈｅｂａｓｉｃｔｏｏｌ，ｔｈｅｃｌａｓｓｉｆｉｃａｔｉｏｎａｃｃｕｒａｃｙａｓｔｈｅｃｒｉｔｅｒｉｏｎｆｕｎｃｔｉｏｎ．Ｔｈｅｓｅｑｕｅｎｔｉａｌｂａｃｋｗａｒｄｓｅｌｅｃｔｉｏｎａｎｄｇｅｎｅｒａｌｉｚｅｄｓｅｑｕｅｎｔｉａｌｂａｃｋｗａｒｄｓｅｌｅｃｔｉｏｎｍｅｔｈｏｄｓａｒｅｅｍｐｌｏｙｅｄｆｏｒｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎ．ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｏｎＵＣＩｄａｔａｓｅｔｓｓｈｏｗｔｈａｔｔｈｅＲＦＦＳａｌｇｏｒｉｔｈｍｈａｓｂｅｔｔｅｒｐｅｒｆｏｒｍａｎｃｅｉｎｃｌａｓｓｉｆｉｃａｔｉｏｎａｃｃｕｒａｃｙａｎｄｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｓｕｂｓｅｔｔｈａｎｔｈｅｏｔｈｅｒｍｅｔｈｏｄｓｉｎｌｉｔｅｒａｔｕｒｅｓ．

Ｋｅｙｗｏｒｄｓ：ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ；ｒａｎｄｏｍｆｏｒｅｓｔ；ｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎ；ｗｒａｐｐｅｒ

Ｏ引用的特征信息或规律，并将其分类识别已成为当

日今信息科学与技术所面临的基本问题‘１１。特征选图像处理、信息检索以及生物信息学等技术择是指从原始特征集中选择使某种评估标准最优的发展，产生了以超大规模特征为特点的高维数的特征子集，以使在该最优特征子集上所构建的据集。如何有效地从高维数据中提取或选择出有分类或回归模型达到与特征选择前近似甚至更好

收稿日期：２０１２－０８—２１．

基金项目：国家自然科学基金项目（６１０７３０４３，６１０７３０４１）；黑龙江省自然科学基金项目（Ｆ２００９０１，Ｆ２０１３１３）；哈尔滨

市科技创新人才研究专项项目（２０１１ＲＦＸＸＧ０１５，２０１０ＲＦＸＸＧ００２，２０１３ＲＦＱＸＪｌｌ４）；高等学校博士学科

点专项科研基金项目（２０１１２３０４１１００１１）．

作者简介：姚登举（１９８０一），男，博士研究生，讲师．研究方向：人工智能，数据挖掘，模式识别．Ｅ－ｍａｉｌ：ｙｄｋｖｉｃｔｏｒ）ｒ＠１６３．ｃｏｍ

万方数据

・

１３８

・

吉林大学学报（＿Ｔ－学版）第４４卷

的预测精度。Ｄａｖｉｅｓ证明寻找满足要求的最小特征子集是ＮＰ完全问题［２］。在实际应用中，通常是通过采用启发式搜索算法，在运算效率和特征子集质量间找到一个好的平衡点，即近似最优解。

随机森林（Ｒａｎｄｏｍｆｏｒｅｓｔ，ＲＦ）［３３是一种集成机器学习方法，它利用随机重采样技术ｂｏｏｔｓｔｒａｐ和节点随机分裂技术构建多棵决策树，通过投票得到最终分类结果。ＲＦ具有分析复杂相互作用分类特征的能力，对于噪声数据和存在缺失值的数据具有很好的鲁棒性，并且具有较快的学习速度，其变量重要性度量可以作为高维数据的特征选择工具，近年来已经被广泛应用于各种分类、预测、特征选择以及异常点检测问题中［４—７｜。

特征选择算法根据所采用的特征评价策略可以分为Ｆｉｌｔｅｒ和Ｗｒａｐｐｅｒ两大类［８］。Ｆｉｌｔｅｒ方法独立于后续采取的机器学习算法，可以较快地排除一部分非关键性的噪声特征，缩小优化特征子集搜索范围，但它并不能保证选择出一个规模较小的优化特征子集。Ｗｒａｐｐｅｒ方法在筛选特征的过程中直接用所选特征子集来训练分类器，根据分类器在测试集的性能表现来评价该特征子集的优劣，该方法在计算效率上不如Ｆｉｌｔｅｒ方法，但其所选的优化特征子集的规模相对要小一些。

本文以随机森林算法为基本工具研究Ｗｒａｐｐｅｒ特征选择方法，利用随机森林分类器的分类准确率作为特征可分性判据，基于随机森林算法本身的变量重要性度量进行特征重要性排序，利用序列后向选择方法（Ｓｅｑｕｅｎｔｉａｌ

ｂａｃｋｗａｒｄ

ｓｅｌｅｃｔｉｏｎ，ＳＢＳ）和广义序列后向选择方法

（Ｇｅｎｅｒａｌｉｚｅｄ

ｓｅｑｕｅｎｔｉａｌ

ｂａｃｋｗａｒｄ

ｓｅｌｅｃｔｉｏｎ，

ＧＳＢＳ）选取特征子集。实验结果表明，相比于文献中［９一ｌＯ］已有的特征选择算法，本文的算法在性能上有较大的提高。１

随机森林

定义１

随机森林［３１是一个由一组决策树分

类器｛ｈ（Ｘ，Ｏｋ），ｋ一１，２，…，Ｋ）组成的集成分类器，其中｛Ｏｋ｝是服从独立同分布的随机向量，Ｋ表示随机森林中决策树的个数，在给定自变量Ｘ下，每个决策树分类器通过投票来决定最优的分类结果。

随机森林是许多决策树集成在一起的分类

万方数据

器，如果把决策树看成分类任务中的一个专家，随机森林就是许多专家在一起对某种任务进行分类。

生成随机森林的步骤如下：

（１）从原始训练数据集中，应用ｂｏｏｔｓｔｒａｐ方法有放回地随机抽取Ｋ个新的自助样本集，并由此构建Ｋ棵分类回归树，每次未被抽到的样本组成了Ｋ个袋外数据（Ｏｕｔ—ｏｆ—ｂａｇ，ＯＯＢ）。

（２）设有以个特征，则在每一棵树的每个节点处随机抽取磁。个特征（弧，，≤豫），通过计算每个特征蕴含的信息量，在ｍ。个特征中选择一个最具有分类能力的特征进行节点分裂。

（３）每棵树最大限度地生长，不做任何剪裁。（４）将生成的多棵树组成随机森林，用随机森林对新的数据进行分类，分类结果按树分类器的投票多少而定。

定义２给定一组分类器ｈ。（Ｘ），ｈ：（Ｘ），…，ｈ；（Ｘ），每个分类器的训练集都是从原始的服从随机分布的数据集（ｙ，Ｘ）中随机抽样所得，余量函数（Ｍａｒｇｉｎｆｕｎｃｔｉｏｎ）定义为

ｍｇ（Ｘ，ｙ）一

ａｖｋＩ（ｈｋ（Ｘ）一Ｙ）－－ｍ曼≯ａｖｋＩ（ｈｋ（Ｘ）一Ｊ）

Ｊｔ一１

（１）

式中：ｊ（・）是示性函数。

余量函数用于度量平均正确分类数超过平均错误分类数的程度，余量值越大，分类预测越可靠。

定义３泛化误差定义为

ＰＥ＋一Ｐｘ，ｙ（ｍｇ（Ｘ，ｙ）＜０、

（２）

式中：下标Ｘ、ｙ表示概率Ｐ覆盖Ｘ、ｙ空间。

在随机森林中，当决策树分类器足够多，ｈ；（Ｘ）一＾（Ｘ，巩）服从强大数定律。

定理１

随着随机森林中决策树数量的增

加，所有序列０。，０２，…，仇，ＰＥ＊几乎处处收敛于

Ｐｘ，ｙ｛Ｐ８（矗（Ｘ，口）一ｙ１一

ｍａｘＰ口ｆ＾（Ｘ，口）一Ｊ、＜０）

（３）

定理１表明随机森林不会随着决策树的增加而产生过拟合问题，但可能会产生一定限度内的泛化误差。

变量重要性评估是随机森林算法的一个重要特点。随机森林程序通常提供４种变量重要性度量。本文采用基于袋外数据分类准确率的变量重要性度量。

第１期

姚登举，等：基于随机森林的特征选择算法

・１３９・

定义４基于袋外数据分类准确率的变量重要性度量［７３定义为袋外数据自变量值发生轻微扰动后的分类正确率与扰动前分类正确率的平均减少量。

假设有ｂｏｏｔｓｔｒａｐ样本ｂ一１，２，…，Ｂ，Ｂ表示训练样本个数，特征Ｘ，的基于分类准确率的变量重要性度量Ｄ，按照下面的步骤计算：

（１）设置ｂ一１，在训练样本上创建决策树Ｌ，并将袋外数据标记为Ｌ尹。

（２）在袋外数据上使用丁６对Ｌ尹数据进行分类，统计正确分类的个数，记为Ｒ尹。

（３）对于特征Ｘ，，Ｊ一１，２，…，Ｎ，对Ｌ尹中的特征墨的值进行扰动，扰动后的数据集记为Ｌ鲈，使用Ｔ６对Ｌ矿数据进行分类，统计正确分类的个数，记为Ｒ护。

（４）对于ｂ一２，３，…，Ｂ，重复步骤（１）～（３）。（５）特征Ｘｊ的变量重要性度量Ｄ，通过下面的公式进行计算：

一

１三

（４）

定义５随机森林算法的分类准确率定义为

Ａｃｃ＂ｒａｃｙ一面蒜蒜（５）

ｑ一吉∑（Ｒ尹一Ｒ矿）

式中：ＴＰ（ｔｒｕｅｐｏｓｉｔｉｖｅ）代表正确的肯定；ＴＮ

（ｔｒｕｅ

ｎｅｇａｔｉｖｅ）代表正确的否定；ＦＰ（ｆａｌｓｅ

ｐｏｓｉｔｉｖｅ）代表错误的肯定；ＦＮ（ｆａｌｓｅｎｅｇａｔｉｖｅ）代表错误的否定。

２本文算法ＲＦＦＳ

２．１算法描述

本文提出了一种基于随机森林的Ｗｒａｐｐｅｒ特征选择方法ＲＦＦＳ，利用随机森林算法的变量重要性度量对特征进行排序，然后采用序列后向搜索方法，每次从特征集合中去掉一个最不重要（重要性得分最小）的特征，逐次进行迭代，并计算分类正确率，最终得到变量个数最少、分类正确率最高的特征集合作为特征选择结果。为了保证实验结果的稳定性，本文采用了１０折交叉验证方法，在每一次迭代中，将数据集划分成１０等份，利用其中的９份作为训练集用于构建随机森林分类器，剩余的１份作为验证集数据进行验证。在１０折交叉验证过程中，选择测试集上分类准确率最高的一次迭代产生的变量重要性排序作为删除特征的依据，将１０次迭代的平均分类准确率作为该

万方数据

轮迭代的分类精度。具体过程如算法１所示。

算法１

基于随机森林的特征选择算法

ＲＦＦＳ

输入：原始数据集Ｓ

输出：验证集上的最大分类正确率ＴＧＭａｘＡｃｃ及其对应的特征集合ＦＧＳｏｒｔ

步骤：

１．初始化

１．１读入原始数据集Ｓ１．２设置ＴＧＭａｘＡｃｃ一０

２．Ｆｏｒ（ｆｔｉｎＮ一２）

２．１将数据集Ｓ随机划分成１０等份

２．２设置局部最大分类准确率ＴＬＭａｘＡｃｃ＝０

２．３设置局部平均分类准确率ＴＬＭｅａｎＡｃｃ＝０

２．４初始化１０折交叉验证中每次迭代的分类准确

盎

ＴＬＡｃｃＦｌ：ｌＯ－１—０

２．５

Ｆｏｒ（ｉｉｎ１：１０）

２．５．１在ｓ上运行ｒａｎｄｏｍＦｏｒｅｓｔ创建分类器２．５．２在测试集上执行ｐｒｅｄｉｃｔ进行分类

２．５．３

比较分类结果与观测值，计算ＴＬＡｃｃ

２，５．４

计算ＴＬＭｅａｎＡＣＣ＝ＴＬＭｅａｎＡｃｃ＋ＴＬＡｃｃ

［ｉ］／１０

ｚ．５．５Ｉｆ（ＴＬＭａｘＡｃｃ％＝ＴＬＡｃｃ［ｉ］）

２．５．６则ＴＬＭａｘＡｃｃ＝ＴＬＡｃｃ［ｉ］

２．５．７对特征按变量重要性排序并存为ＦＳｏｒｔ

２．６

Ｉｆ（ＴＧＭａｘＡＣＣ＜一ＴＬＭｅａｎＡｃｃ）

则ＴＧＭａｘＡｃｃ＝ＴＬＭｅａｎＡｃｃ

ＦＧＳｏｒｔ＝ＦＳｏｒｔ

２．７从ＦＳｏｒｔ中去掉重要性得分最低的一个特征，

得到新的数据集Ｓ３．输出结果

３．１输出全局最高分类准确率ＴＧＭａｘＡｃｃ

３．２输出全局最高分类准确率对应的特征集合

ＦＧＳｏｒｔ

注：ｆｔ代表循环变量，Ｎ代表数据集中所有特征个数。

２．２时间复杂度分析

本文所提出的随机森林特征选择方法中基分类器选择ＣＡＲＴ算法。假设训练数据集的特征维数为ｍ，训练样本个数为咒，ＣＡＲＴ算法的时间复杂度为０（ｒａｎ（１０９ｎ）２、。随机森林在构建ＣＡＲＴ树的过程中，从Ｔｎ个特征中随机选择优。个特征计算信息增益，并且对树的生长不进行剪枝，故训练每一个基分类器的计算时间小于０（ｒａｎ（１０９ｎ）２），假设随机森林中基分类器的个数为ｋ个，则随机森林算法的时间复杂度可以近似为Ｏ（ｋｍｎ（１０９ｎ）２）。在本实验中，采用序列后

・１４０・

吉林大学学报（工学版）

第４４卷

向选择策略进行特征选择需要循环ｍ一２次，每一轮循环中采用１０折交叉验证，需运行随机森林算法１０次，每轮循环需对特征子集进行排序，采用快速排序算法的平均时间复杂度为０（ｍｌｏｇｍ），根据排序后的特征集合生成新的训练数据集需要进行拢～２次，每次计算对闭为常数，故本算法总的时间复杂度可以近似表示为

０（（ｍ一２）＊（１０＊Ｏ（ｋｍｎ（１０９ｎ）２）＋

Ｏ（ｍｌｏｇｍ）＋优一２））≈Ｏ（ｋｍ２行（１０９ｎ）２）

（６）

由式（６）可见，ＲＦＦＳ算法的时间复杂度与特征维数ｍ成近似平方关系，与数据集样本个数ｎ成近似立方关系，对于高维小样本数据，运算时间是可以接受的，算法具有较好的扩展性。

３实验结果及分析

３．１实验数据与方法

为便于比较，从ＵＣＩ数据集中选取了ｗｄｂｃ、

ｂｒｅａｓｔ—ｃａｎｃｅｒ—ｗｉｓｃｏｎｓｉｎ、ｐｉｍａ—ｉｎｄｉａｎｓ—ｄｉａｂｅｔｅｓ

和ｈｅａｒｔｄｉｓｅａｓｅ４个数据集进行测试。表１列出

了这些数据集的特征，数据集维数从几个到数十个不等。

表１取自ＵＣＩ的数据集

Ｔａｂｌｅ１

Ｄａｔａｓｅｔ

ｆｒｏｍＵＣｌ

本文算法采用Ｒ语言进行实现，随机森林核心算法采用Ｒ软件中的ｒａｎｄｏｍＦｏｒｅｓｔ程序包，

其中ｍ。参数取Ｂｒｅｉｍａｎ建议的默认值石（咒为

训练数据集中特征的个数），咒。参数设置为１０００。实验的硬件环境为ＩｎｔｅｌＣｏｒｅ（ＴＭ）２

Ｄｕｏ

ＣＰＵＥ４６００＠２．４０ＧＨｚ，３．７５

Ｇ的内存，操作系

统为ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ７，绘图软件采用

Ｍａｔｌａｂ７．０。

３。２实验结果分析

本文算法ＲＦＦＳ在搜索实现最大分类准确率的特征子集时采用的是序列后向搜索策略，特征选择过程和结果如图１所示。从图１可以看出，随着不重要特征（在随机森林变量重要性排序中排在最后的特征）的依次删除，分类准确率整体上呈现逐步提高的趋势，这主要是因为不相关特征

万方数据

和冗余特征的消除提高了分类器性能；当分类准确率到达最高值９７．９８％后又开始呈现下降趋势，则是因为有用的特征被消除，降低了分类器的性能。这说明了本文算法能够有效地识别并消除冗余特征和不相关特征，从而提高分类器的分类性能。

１

Ｏ

ＯＯ

０

Ｏ

０

Ｕ

５ｌＵ

１５２Ｕ

２５

３０

３５

Ｎｕｍｂｅｒｏｆｆｅａｔｕｒｅ

图１分类精度与特征个数之间的关系

Ｆｉｇ．１

Ｒｅｌａｔｉｏｎｓｈｉｐｂｅｔｗｅｅｎｃｌａｓｓｉｆｉｃａｔｉｏｎａｃｃｕｒａｃｙａｎｄ

ｆｅａｔｕｒｅｎｕｍｂｅｒ

表２列出了ＲＦＦＳ算法和ＣＢＦＳ算法、ＡＭＧＡ算法在不同实验数据集上的性能比较，其中ＳＦ列表示选出的最优特征子集中的特征个数，Ａｃｃ列表示算法在实验数据集上的分类性能。

ＣＢＦＳ算法、ＡＭＧＡ算法在相应数据集上的实验数据分别来自文献［９３和文献Ｄｏ］，“一”表示该算法在相应数据集上没有进行实验。

表２不同算法的性能比较

Ｔａｂｌｅ２

Ｐｅｒｆｏｒｍａｎｃｅｃｏｍｐａｒｉｓｏｎｏｆｄｉｆｆｅｒｅｎｔａｌｇｏｒｉｔｈｍｓ

从表２可以看出，ＲＦＦＳ算法在Ｂｒｅａｓｔ、Ｄｉａｂｅｔｅｓ、和Ｈｅａｒｔ数据集上的分类正确率分别为９８．２％、８１．１％、９２．３％，选择出的特征个数分别为６、５、６。与ＣＢＦＳ算法相比，ＲＦＦＳ算法在特征个数基本相等或者更少的情况下，分类性能明显优于ＣＢＦＳ。ＲＦＦＳ算法在Ｂｒｅａｓｔ数据集上选择的特征个数与ＡＭＧＡ算法相等，分类性能略低于ＡＭＧＡ算法；在Ｄｉａｂｅｔｅｓ数据集上，ＲＦＦＳ算法选择的特征个数与ＡＭＧＡ算法相等，分类性能略高于ＡＭＧＡ算法；在Ｈｅａｒｔ数据集上，

第１期姚登举，等：基于随机森林的特征选择算法

。１４１‘

ＲＦＦＳ算法比ＡＭＧＡ算法选择了更少的特征数目，却获得了更高的分类精度。从整体上看，本文方法优于文献Ｅ９Ｊ和文献［１０３中的方法。实验结果表明，ＲＦＦＳ算法不仅能够选择出较优的特征子集，而且能够获得较高的分类性能。

另外，本文算法也可以容易地扩展为使用广义后向搜索策略进行最优子集搜索，为了获得最好的分类效果，本文对删除“最不重要特征”时采用的不同步长进行了实验，结果如表３所示。从表３可以看出，在所有６组实验中（依次删除１个到６个特征），最高的分类性能是在每次删除一个特征时获得。需要说明的是，每次删除一个特征并不是在所有数据集上的最优选择，由于本文所涉及的数据集特征数目还不是特别高，所以每次删除一个特征有助于获取最优子集。当数据集特征数目非常高时，每次删除一个特征就不再适用，因为大量的特征数目将会大大增加时间开销，并且不能快速有效地消除冗余和不相关特征。如何对采用广义后向搜索时的Ｌ值进行设置，将是下一步研究的方向。

表３每次删除不同个数特征的实验结果

Ｔａｂｌｅ

３

Ｅｘｐｅｒｉｍｅｎｔｒｅｓｕｌｔｗｈｅｎｄｅｌｅｔｉｎｇｄｉｆｆｅｒｅｎｔｎｕｍｂｅｒ

ｏｆｆｅａｔｕｒｅｓｉｎｅａｃｈ

ｔｉｍｅ

Ｌ

选择出的最优特征分类正确率

１Ｖ３０，Ｖ１６。Ｖ２６，Ｖ２４，Ｖ２３，Ｖ２５，Ｖ１０，Ｖ２９，Ｖ４，Ｖ６，Ｖ２７２Ｖ２４，Ｖ３０，Ｖ１６，Ｖ２６，Ｖ１０，Ｖ２５，Ｖ２３

３Ｖ３０，Ｖ２６，Ｖ１６，Ｖ１０，Ｖ２４，Ｖ２３，ＶＺ５，Ｖ４，Ｖ２９，Ｖ６４Ｖ３０，Ｖ１６，Ｖ２６，Ｖ２４，Ｖ２３，Ｖ２５，Ｖ４，Ｖ１０，Ｖ２９，Ｖ６，Ｖ２７５Ｖ３０，Ｖ２６，Ｖ１６，Ｖ２５，Ｖ２３，ＶｌＯ６Ｖ３０，Ｖ２４，Ｖ１６，Ｖ２６，Ｖ１０，Ｖ２５，Ｖ２３

４结束语

提出了一种基于随机森林的封装式特征选择算法，该算法利用随机森林算法的变量重要性度量对特征进行排序，采用后向序列搜索方法寻找能够训练最优性能分类器的特征子集。实验结果表明本文的特征选择算法可以获得较好的分类性能和特征子集，与以前文献中的方法［９＿１０］相比具有一定的优势。如何在高维数据集中确定广义后向搜索方法中的Ｌ值，是下一步的研究内容。参考文献：

［１］蒋胜利．高维数据的特征选择与特征提取研究ＥＤ３。

西安：西安电子科技大学计算机学院，２０１１．

万方数据

Ｊｉａｎｇ

Ｓｈｅｎｇ—ｌｉ．Ｒｅｓｅａｒｃｈ

ｏｎ

ｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎａｎｄ

ｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎｆｏｒｈｉｇｈ—ｄｉｍｅｎｓｉｏｎａｌｄａｔａＦＤ］．Ｘｉ’

ａｎ：Ｓｃｈｏｏｌ

ｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄ

Ｅｎｇｉｎｅｅｒｉｎｇ，

ＸｉｄｉａｎＵｎｉｖｅｒｓｉｔｙ，２０１１．

［２］ＤａｖｉｅｓＳ，ＲｕｓｓｌＳ．ＮＰ—ｃｏｍｐｌｅｔｅｎｅｓｓｏｆｓｅａｒｃｈｅｓｆｏｒ

ｓｍａｌｌｅｓｔｐｏｓｓｉｂｌｅｆｅａｔｕｒｅｓｅｔｓ［ｃ］∥Ｐｒｏｃｅｅｄｉｎｇｓ

ｏｆ

ｔｈｅＡＡＡＩ

Ｆａｌｌ

Ｓｙｍｐｏｓｉｕｍｓ

ｏｎ

Ｒｅｌｅｖａｎｃｅ．Ｍｅｎｌｏ

Ｐａｒｋ，１９９４：３７—３９．

［３］ＢｒｅｉｍａｎＬ．Ｒａｎｄｏｍｆｏｒｅｓｔｓ［Ｊ］．Ｍａｃｈｉｎｅ

Ｌｅａｒｎｉｎｇ，

２００１，４５（１）：５—３２．

［４］Ｓｔｒｏｂｌ

Ｃａｒｏｌｉｎ，ＢｏｕｌｅｓｔｅｉｘＡｎｎｅ－Ｌ｛ｉｕｒｅ，Ｋｎｅｉｈ

Ｔｈｏｍａｓ，ｅｔａ１．ＣｏｎｄｉｔｉｏｎａｌｖａｒｉａｂｌｅｉｍｐｏｒｔａｎｃｅｆｏｒｒａｎｄｏｍｆｏｒｅｓｔｓＩ－Ｊ１．ＢＭＣ

Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，２００８，９

（１）：１－１１。

［５］ＲｅｉｆＤａｖｉｄＭ，ＭｏｔｓｉｎｇｅｒＡｌｉｓｏｎＡ，ＭｃＫｉｎｎｅｙＢｒｅｔｔ

Ａ，ｅｔａ１．Ｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｕｓｉｎｇａ

ｒａｎｄｏｍｆｏｒｅｓｔｓ

ｃｌａｓｓｉｆｉｅｒｆｏｒｔｈｅｉｎｔｅｇｒａｔｅｄａｎａｌｙｓｉｓｏｆｍｕｌｔｉｐｌｅｄａｔａ

ｔｙｐｅｓ［Ｃ］｝｝ＩＥＥＥ

Ｓｙｍｐｏｓｉｕｍ

ｏｎ

ＣｏｍｐｕｔａｔｉｏｎａｌＩｎ—

ｔｅｌｌｉｇｅｎｃｅａｎｄＢｉｏｉｎｆｏｒｍａｔｉｃｓａｎｄＣｏｍｐｕｔａｔｉｏｎａｌＢｉ—ｏｌｏｇｙ，２００６：１７１—１７８．

［６］ＭｏｈａｍｍｅｄＫｈａｌｉｌｉａ，ＳｏｕｎａｋＣｈａｋｒａｂｏｒｔｙ，Ｍｉｈａｉｌ

Ｐｏｐｅｓｃｕ．Ｐｒｅｄｉｃｔｉｎｇ

ｄｉｓｅａｓｅｒｉｓｋｓｆｒｏｍｈｉｇｈｌｙ

ｉｍ—

ｂａｌａｎｃｅｄｄａｔａｕｓｉｎｇｒａｎｄｏｍ

ｆｏｒｅｓｔ［Ｊ］．ＢＭＣＭｅｄｉ—

ｃａｌＩｎｆｏｒｍａｔｉｃｓａｎｄＤｅｃｉｓｉｏｎＭａｋｉｎｇ，２０１１，１１（７）：５１－５８．

［７］ＶｅｒｉｋａｓＡ，ＧｅｌｚｉｎｉｓＡ，ＢａｃａｕｓｋｉｅｎｅＭ．Ｍｉｎｉｎｇｄａｔａ

ｗｉｔｈｒａｎｄｏｍｆｏｒｅｓｔｓ：ａ

ｓｕｒｖｅｙ

ａｎｄｒｅｓｕｌｔｓｏｆｎｅｗ

ｔｅｓｔｓＥＪ］．Ｐａｔｔｅｒｎ

Ｒｅｃｏｇｎｉｔｉｏｎ，２０１１，４４（２）：３３０—

３４９．

［８］Ｉｎｚａ

１，ＬａｒｒａｎａｇａＰ，ＢｌａｎｃｏＲ．Ｆｉｌｔｅｒ

ｖｅｒｓｕｓ

ｗｒａｐ—

ｐｅｒ

ｇｅｎｅ

ｓｅｌｅｃｔｉｏｎ

ａｐｐｒｏａｃｈｅｓｉｎ

ＤＮＡ

ｍｉｃｒｏａｒｒａｙ

ｄｏｍａｉｎｓ［Ｊ］．Ａｒｔｉｆｉｃｉａｌ

Ｉｎｔｅｌｌｉｇｅｎｃｅ

ｉｎ

Ｍｅｄｉｃｉｎｅ，

２００４，３１（２）：９１—１０３．

［９］蒋盛益，郑琪，张倩生．基于聚类的特征选择方法

［Ｊ］．电子学报，２００８，３６（１２）：１５７—１６０．

ＪｉａｎｇＳｈｅｎｇ—ｙｉ，ＺｈｅｎｇＱｉ。ＺｈａｎｇＱｉａｎ－ｓｈｅｎｇ。Ｃｌｕｓ—ｔｅｒｉｎｇ－ｂａｓｅｄｆｅａｔｕｒｅ

ｓｅｌｅｃｔｉｏｎ［Ｊ］．Ａｃｔａ

Ｅｌｅｃｔｒｏｎｉｃａ

Ｓｉｎｉｃａ，２００８，３６（１２）：１５７－１６０．

［１０］刘元宁，王刚，朱晓冬，等．基于自适应多种群遗传

算法的特征选择口］．吉林大学学报：工学版，２０１１，

４１（６）：１６９０—１６９３．

Ｌｉｕ

Ｙｕａｎ－ｎｉｎｇ，Ｗａｎｇ

Ｇａｎｇ，Ｚｈｕ

Ｘｉａｏ—ｄｏｎｇ，ｅｔａ１．

Ｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｂａｓｅｄ

ｏｎ

ａｄａｐｔｉｖｅｍｕｌｔｉ－ｐｏｐｕｌａｔｉｏｎｇｅｎｅｔｉｃ

ａｌｇｏｒｉｔｈｍＥＪ］．Ｊｏｕｒｎａｌ

ｏｆＪｉｌｉｎＵｎｉｖｅｒｓｉｔｙ（Ｅｎ—

ｇｉｎｅｅｒｉｎｇ

ａｎｄＴｅｃｈｎｏｌｏｇｙ

Ｅｄｉｔｉｏｎ），２０１１，４１（６）：

１６９０—１６９３．

百度搜索“爱华网”,专业资料,生活学习,尽在爱华网

随机森林算法特征选择

爱华网本文地址 » http://www.aihuau.com/a/393151/84692033237.html

随机森林算法特征选择随机森林算法原理基于随机森林的特征选择算法

更多阅读

支持向量机及其应用支持向量机建模及应用

几种求值域的方法配方法求值域

聚类分析的主要方法聚类分析ward方法

遗传算法的基本步骤与实例遗传算法基本步骤

Clementine>数据审核 clementine 数据挖掘

声明:《随机森林算法特征选择随机森林算法原理基于随机森林的特征选择算法》为网友刪除丶我的孤單分享！如侵犯到您的合法权益请联系我们删除

更多阅读

支持向量机及其应用 支持向量机建模及应用

几种求值域的方法 配方法求值域

聚类分析的主要方法 聚类分析ward方法

遗传算法的基本步骤与实例 遗传算法基本步骤

Clementine>数据审核 clementine 数据挖掘

声明:《随机森林算法特征选择 随机森林算法原理 基于随机森林的特征选择算法》为网友刪除丶我的孤單分享！如侵犯到您的合法权益请联系我们删除

支持向量机及其应用支持向量机建模及应用

几种求值域的方法配方法求值域

聚类分析的主要方法聚类分析ward方法

遗传算法的基本步骤与实例遗传算法基本步骤

声明:《随机森林算法特征选择随机森林算法原理基于随机森林的特征选择算法》为网友刪除丶我的孤單分享！如侵犯到您的合法权益请联系我们删除