英语原文共 16 页,剩余内容已隐藏,支付完成后下载完整资料
外文翻译
题 目 使用具有受控冗余的神经框架进行特征选择
作 者 Rudrasis Chakraborty , Nikhil R. Pal
发表时间_____2014年_______
二O 一七 年 四 月 三十 日
摘要:我们首先提出一种基于多层感知器(MLP)神经网络的特征选择方法,称为特征选择MLP(FSMLP)。我们解释了FSMLP如何选择基本特征并丢弃贬义和无关紧要的特征。这种方法可能会获得一些有用但依赖(比较相关)的特征,所有这些特征可能都是不需要的。然后,我们提出了一种处理具有“受控冗余”(CoR)的特征选择的一般方案。这个提出的方案,称为FSMLP-CoR,可以选择具有受控冗余的特征,用于分类和函数逼近/预测类型问题。我们还提出了一种新的更有效的培训方案,称为mFSMLP-CoR。这个想法本质上是通用的,也可以与其他学习方案一起使用。我们使用包括合成数据集在内的多个数据集证明了算法的有效性。我们还表明,所选择出来的特征足以解决手头上的问题。在本文当中,我们考虑了线性相关度量来控制冗余。使用非线性相关度量(例如互信息)非常简单。这里,提出的方案有一些优点。它们不需要对特征子集进行明确评估。在这里,特征选择被集成到决策系统的设计中。因此,它可以一起查看所有特征,并获取所需的任何信息。我们的方法可以解释特征之间可能存在的非线性细微交互,以及特征,工具和要解决的问题之间的相互作用。它们还可以控制所选功能的冗余级别。在两种学习方案中,mFSMLP-CoR不仅可以提高系统性能,还可以显着降低网络行为对连接权重初始化的依赖性。
关键词:降维,特征选择,神经网络,冗余控制。
1.介绍
特征选择在模式识别和系统识别中起着重要作用。众所周知,对于给定的问题,表征数据点的所有特征通常不具有同等重要性; 某些功能可能会对手头的任务产生贬损影响。无论问题是分类,函数逼近还是预测,这都可能是真实的。使用更多特征为系统增加了更多(灵活性)自由度,因此学习系统获得了更高的记忆数据自由度,这可能导致不良的泛化。当我们使用更多功能时,可能会导致更高的设计和决策成本。更多特征还可以导致学习系统最小化的误差函数的更多局部最小值。
因此,已经开发了许多特征选择方法,并且仍然在寻找更好的方法。特征选择方法可以以不同方式分类。一种常用的分类方法将特征选择方法分为过滤方法和包装方法。过滤方法不使用/需要来自分类器或预测器的任何反馈,最终使用所选特征。但是,包装器方法使用分类器(或预测器)评估特征的效用,最终使用所选特征。我们知道功能集的有效性不仅取决于问题,还取决于用于解决问题的工具。因此,包装器方法可能会产生更好的性能。
寻找特征的最佳子集通常需要考虑所有可能的特征子集的穷举搜索,当数据的维度很高时,这在计算上变得过高。因此,即使对于包装方法,也使用一些次优的启发式引导选择方法。使用前向选择或后向消除方案或其变体可能无法利用特征之间的交互。在我们看来,特征选择的最佳方式应该是一种集成方法,其中学习系统同时查看所有特征并在设计系统时获取有用的特征以解决给定问题。有一些方法可以使用这样的集成框架来解决特征选择问题。与其他方法相比,这种方法具有一些优势:它们不需要评估所有可能的子集,它们可以解释特征之间的交互,并且它们可以确认特征与用于解决问题的工具之间的交互。在这里,我们的方法基于这一理念。
在继续之前,我们想解释一下我们想要选择的功能。我们希望选择好的/有用的功能并消除/丢弃具有差的识别/预测能力或可能使学习过程混淆的特征的特征。记住这个目标,我们可以将功能分为四组:(1)基本功能 - 无论我们使用的建模工具如何,这些功能都是必需的;(2)不良或贬损特征 - 无论我们使用何种建模工具,都必须丢弃这些特征;(3)无关紧要的特征 - 这些特征既不会对决策造成任何帮助也不会造成任何问题;(4)冗余特征 - 这些是有用的特征,它们相互依赖,例如两个相关特征。因此,所有冗余功能都不是必需的,只需要一些来解决问题。
任何特征选择问题的目标应该是:(1)选择必要的特征;(2)丢弃不良特征;(3)抛弃无关紧要的特征;(4)控制冗余功能的使用。
特别是,我们将首先讨论中的方法,该方法已成功应用于许多应用中。然后,我们将解释这种方法可以实现上面列出的特征选择的前三个目标。然后我们将扩展中的方法,以便它也可以实现特征选择的第四个目标,即控制冗余特征的使用。一个自然的问题是为什么冗余控制是有用的。我们用一个简单的例子来解释它,它也解释了无关功能背后的想法。
假设我们有四个问题,有六个特征:性别代码,身高,体重,体重指数(BMI),眼睛颜色和腿数。这四个类定义如下。
(1)第1类:男性和(短身高或低体重)。
(2)第2类:男性和(长高或重量重)。
(3)第3类:女性和(短身高或低体重)。
(4)第4类:女性和(长高或重量重)。
如果一个数据点没有被任何规则分类,系统就会进行分类不做任何决定——它说不知道。
请注意,这些类描述实际上并不为设计者(或学习系统)所知,并且这些描述隐藏在训练数据中(在特征向量和相关的类标签中)。对于这样的数据集,腿的数量是一个无关紧要的特征,眼睛颜色是贬义特征,性别代码是必不可少的特征。
有三个相关(冗余)功能。如果我们完全删除冗余,学习系统可以提取表单的规则。
(1)如果性别为男性,身高lt;1.47米,则Class 1;
(2)如果性别为男性,身高gt;1.75米,则Class 2;
(3)如果性别为女性,身高lt;1.30米,则Class 3;
(4)如果性别为女性,身高gt;1.40米,则Class 4。
在这里,如果我们在测量高度时犯了错误,分类器可能会错误地分类或者说不知道。另一方面,如果考虑冗余特征导出规则,我们可能在其中一个属性中发生某些测量错误时避免错误。使用冗余特征的一些说明性规则可以如下。
(1)如果性别为男性(身高小于1.47米或体重小于55公斤),则Class 1;
(2)如果性别为男性(身高大于1.75米或体重大于70公斤),则Class 2。
特征BMI虽然与身高和体重相关,但可能使学习任务更加困难,因为对于第1类和第2类中的人,我们可以具有相同/相似的BMI值。这证明需要丢弃BMI。因此,为了更容易学习以及为系统配备一些测量误差容差,我们应该同时使用身高和体重并丢弃BMI。这解释了控制(不消除)冗余的需要。
我们提出的框架本质上非常通用,可以很容易地适应其他学习系统。我们使用两种不同的学习策略。具有第一策略的系统称为特征选择多层感知器(FSMLP)-CoR,而新策略称为mFSMLP-CoR。发现新策略mFSMLP-CoR比原始学习方案更有效。它显着降低了系统行为对初始条件的依赖性,并导致系统性能的实质性改进。
2. 相关工作
尽管使用统计标准,神经网络,进化算法和模糊逻辑进行特征选择有很多方法。没有多少尝试选择具有受控冗余的功能。为了清楚起见,我们根据所使用的哲学将相关工作的讨论分开。
(1)无监督的方法
Liu等人提出了一种基于拉普拉斯分数的无监督特征选择方法,其中拉普拉斯分数用于评估每个特征的有效性。Hong等人提出了一种使用集合聚类的无监督特征选择方案。它尝试选择特征的子集,其中缩减维度中的结果聚类与集合聚类具有相似性。为了搜索特征子集,使用基于群体的增量学习。
He等人提出了另一种拉普拉斯分数特征选择方案,可以纳入有监督和无监督的框架。 拉普拉斯得分Lr基于两个数据点的观察结果如果它们很接近则相互关联。 具有的功能最小Lr是最好的功能。 他们根据功能排名在Lr得分。 在监督框架中,他们已经使用过用于生成邻居图的数据集的类标签。提出了一种无监督的特征选择算法。给定一个数据集,首先,计算前k个右奇异向量,其中k是常数。对于每个特征i,归一化杠杆分数计算如下:。
样本参数r固定为。然后,对于r随机试验,第i个特征在第i次迭代时保持概率。 第i个特征乘以。矩阵作为重新缩放的缩减数据集返回。
Mao还提出了一种无监督的特征选择方法,试图选择一组特征,这些特征可以在主轴上重现样本投影。选择在前向选择或后向消除中以两种方式完成。
(2)对依赖性的隐性考虑
Guyon 等人提出了一种基于支持向量机的递归特征消除(SVM-RFE)技术,该技术从完整特征集开始一次递归地删除一个特征。SVM的决策函数是,其中是权重向量而b是标量,p是特征的数量。它们基于与每个特征相关联的权重()的平方对特征进行排序。 排名最低的特征具有最不重要性,因此被去除。 重复此过程,直到该集合包含所需数量的特征。 该方案已经扩展到处理问题,他们将其称为多类SVM-RFE(MSVM-RFE)。他们基于一对一(OVA)策略训练C二进制SVM。 从这些C分类器中,我们得到c个权重向量。将第i个特征的排序标准作为c个权重向量的第i个系数的平方和,。具有最小等级的特征如前所述被消除。 此外,重复该过程,直到剩余所需数量的特征。 这种方法隐含地减少了所选特征之间的线性依赖性。
(3)明确考虑依赖性
最近,Zhou等人考虑了具有冗余约束的特征选择问题。基于跟踪的方法不能考虑特征的冗余。Zhou等人将特征选择问题制定为约束0-1线性分数程序(LFP),以避免所选特征之间的冗余。给出一组训练样本,将p个特征,r个所需功能数量作为输入值,使用特征的分层凝聚聚类来生成r个特征集群。然后,从这个级别的层次结构中,使用LFP选择r个特征。 对于每个特征t,计算通常的类间散布(ft)和总类散射(gt)。 对于层次聚类的每个级别,如下表示0-1线性分数优化问题:
(1)
该公式受以下限制:;;同时,。这种约束是为了控制之间的冗余特征。
基于线性规划中的完全单模条件,使用Dinkelbach的线性规划算法,Slawski 等人,Zhou等人为每个级别选择了r个特征。然后,用十倍交叉验证,SVM分类器用于选择最佳r特征。注意,通常使用z对特征进行归一化,在这种情况下,。另外,这种方法不能用于回归问题。
Slawski等人将特征选择问题表述为具有线性预测因子的回归问题。 他们将弹性网状正规化器扩展为结构化弹性网。它们的结构弹性网状正规化器具有以下形式:
(2)
是表示回归系数的p维向量。如果我们将相关矩阵作为相关矩阵,则结构化弹性网络是套索和冗余去除项的线性组合。他们假设了一个损失函数来估计受结构化弹性净正则化约束条件限制的值。
最小冗余标准选择特征S的子集,使得平均成对冗余W是最小的。 最大相关性标准试图选择最大化S和类标签信息y之间的平均互信息V的集合S. maxrelevance和min-redundancy标准选择一个特征子集最大化(V-W)。
Peng等人提出了一种基于互信息的两阶段特征选择方法。 他们使用最大相关性和最小冗余度作为选择标准。 他们首先使用类标签选择具有最高互信息值的功能。 然后,从剩余的集合中,他们的意图是选择与类标签(即,互信息)具有最高相关性的第二特征以及与已经选择的特征的最小依赖性。 因此,在任何步骤中,如果已经选择了m-1个特征来形成集合,那么从剩余的集合中,他们通过优化标准来选择下一个特征。
(4)基于稀疏性的方法
近年来,人们提出了各种稀疏诱导特征选择方案.Weston等。还提出了一种基于SVM的特征选择方案。Weston等人声称使用梯度下降技术解决上述问题。 然而,目前尚不清楚如何使用梯度优化满足的上述方程。 请注意,梯度下降不保证。
Yang等人提出了一种2,1范数正则化无监督特征选择方法。 给定具有n个数据点的数据集X,获得每个点的一组k个局部邻居。第i个数据点的局部判别分数DSi定义为
是球体的半径,包含给定内核的所有训练数据的图像。
在这里,有一个大 lambda; 价值和合适的 q 价值, sigma; 矢量变得稀疏,因此它可以用于特征选择。
给定训练数据集,特征选择的目标不应仅仅是找到最佳特征集 - 一组足以解决手头问题的特征。相反,我们应该选择一组可以解决问题的功能,并且还具有一些或有限的冗余。一些冗余是理想的,因为使用这些特征的决策系统可能能够处理一些测量误差。因此,我们需要具有受控冗余的特征选择算法。请注意,与[17]中的方法一样,对于任何实际问题,我们都不知道要选择的功能的数量。因此,特征选择系统应该能够找到所需的特征,并且还应该允许用户控制所选特征集中的冗余级别。这是我们打算使用基于神经网络的框架实现的目标。
3. 用于特征选择的多层感知器网络
多层感知器(MLP)网络是一种分层网络,已广泛用于许多领域的函数逼近,分类和预测[46] - [47] [48] [49] [50]。图1显示了具有一个隐藏层的MLP网络。隐藏层和输出层中的每个节点计算来自前一层的输入的加权和,然后将非线性(通常为S形)变换应用于该加权和,并将该值传播到下一层或作为输出发出。在图1中一些节点是暗的,一些是部分暗,而另一些是白圈。暂时让我们忘记这一点,并假设所有节点看起来都一样。Pal和Chintalapudi [4]提出了一种特征选择方案,它同时选择有用的特征并识别可以解决手头问题的系统。由于学习系统一次查看所有要素并尝试解决手头的问题,因此该方法可以解释要素之间以及要素与工具之间的微妙交互。尽管这种方法已应用于许多领
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[20059],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。