在之前格物资的文章中,我们讲解了特征建构的几种常用方法。特征建构是一种升维操作者,针对特征说明能力严重不足,可以通过特征建构的方法来减少特征说明力,从而提高模型效果。随着近几年大数据技术的普及,我们可以提供海量数据,但是这些海量数据带来我们更加多信息的同时,也带给了更加多的噪音和出现异常数据。
如何叛维去噪沦为很多企业注目的焦点,今天我们将讲解特征工程中的一种降维方法——特征选择。什么是特征选择特征选择( Feature Selection )也称之为特征子集自由选择( FeatureSubset Selection , FSS ),或属性自由选择( Attribute Selection )。是所指从有数的N个特征(Feature)中自由选择M个特征使得系统的特定指标线性规划。特征选择主要有两个功能增加特征数量、降维,使模型一般化能力更加强劲,增加过数值强化对特征和特征值之间的解读特征选择的流程特征选择的目标是找寻一个需要有效地辨识目标的大于特征子集。
找寻的一般流程能用右图回应:一般来说,通过枚举来对特征子集展开自由选择是一个较为费时的步骤,所以不应用于一些策略来展开特征选择,一般来说来说,我们不会从两个方面考虑到来自由选择特征:特征否收敛如果一个特征不收敛,例如方差相似于0,也就是说样本在这个特征上基本上没差异,这个特征对于样本的区分并没什么用。特征与目标的相关性这点较为绝非,与目标相关性低的特征,应该替代性自由选择。除方差法外,本文讲解的其他方法皆从相关性考虑到。
根据特征选择的形式又可以将特征选择方法分成3种:FilterWrapperEmbedded特征选择的方法1、Filter过滤法,按照收敛性或者相关性对各个特征展开评分,原作阈值或者待自由选择阈值的个数,自由选择特征。评分指标有:方差:评价指标的线性程度,就越线性解释包括的信息就越多。相关性:取决于特征对目标的说明能力,相关系数越大解释说明能力就越强劲。
卡方检验:检验定性自变量对定性因变量的相关性。互信息:也是评价定性自变量对定性因变量的相关性的。2、Wrapper包装法,根据目标函数(一般来说是预测效果)评分,每次自由选择若干特征,或者回避若干特征,主要的方法是迭代特征避免法。
迭代避免特征法用于一个恩模型来展开多轮训练,每轮训练后,增加若干特征,或者追加若干特征,展开评估看追加的特征否必须保有,去除的特征否必须还原成。最后再行基于新的特征集展开下一轮训练。3、Embedded映射法,再行用于某些机器学习的算法和模型展开训练,获得各个特征的权值系数,根据系数从大到小自由选择特征。
类似于Filter方法,但是是通过训练来确认特征的好坏。一般分成如下两大类:基于惩罚项的特征选择法这个方法可以用线性重返模型来举例说明,我们在线性模型的目标函数中减少L1正则项(实质上这就是lasso模型)。由于该正则项的不存在,某些与目标y不过于涉及的特征的系数将削减至0,而保有的特征系数将适当调整,从而超过了对特征展开检验的效果,L1正则项系数越大,检验的力度也就越大。基于树根模型的特征选择法在我们之前的文章中讲解过随机森林,GDBT等等基于树根的模型,他们皆有一个特点就是模型可以计算出来出有特征的重要性。
决策树不会优先将对预测目标y协助仅次于的特征放到模型的顶端,因此根据这个效果我们计算出来获得特征的重要性,进而我们可以根据特征重要性对特征展开自由选择。今天我们大体理解了如何给工业大数据叛维去噪,展开特征选择,在先前文章中,我们将之后带上大家理解特征工程的另一个内容——特征提取,敬请期待。
本文来源:十大足球赌注app排行榜-www.hbtzymx.com