榆树范文网

决策树总结(优选5篇)

85

决策树总结 第1篇

基尼值计算公式如所示:

同样以上述熵的二分类例子为例,当两类数量相等时,基尼值等于 ;当节点数据属于同一类时,基尼值等于0 。基尼值越大,数据越不纯。

下面将以熵作为复杂度的统计量:

属性1:

属性2:

由于 ,所以属性1与属性2相比是更优的分裂属性,故选择属性1作为分裂的属性。

决策树总结 第2篇

使用信息增益作为选择分裂的条件有一个不可避免的缺点:倾向选择分支比较多的属性进行分裂。为了解决这个问题,引入了信息增益率这个概念。信息增益率是在信息增益的基础上除以分裂节点数据量的信息增益(听起来很拗口),其计算公式如下:

其中 表示信息增益, 表示分裂子节点数据量的信息增益,其计算公式为:

其中m表示子节点的数量, 表示第i个子节点的数据量占父节点数据量的比例,说白了, 其实是分裂节点的熵。信息增益率越高,说明分裂的效果越好。

还是信息增益中提及的例子为例:

属性1:

属性2:

由于 ,故选择属性2作为分裂的属性。

停止分裂的条件

(1)最小节点数

当节点的数据量小于某一个数量时,不继续分裂。两个原因:一是数据量较少时,再做分裂容易强化噪声数据的作用;二是降低树生长的复杂性。提前结束分裂一定程度上有利于降低过拟合的影响。

(3)熵或者基尼值小于阀值。

由上述可知,熵和基尼值的大小表示数据的复杂程度,当熵或者基尼值过小时,表示数据的纯度比较大。

(3)所有特征已经使用完毕,不能继续进行分裂。

被动式停止分裂的条件,当已经没有可分的属性时,直接将当前节点设置为叶子节点。

决策树总结 第3篇

分类模型的误差可分为:训练误差(training error)泛化误差(generalization error)。训练误差是在训练记录上误分类样本比例,泛化误差是模型在未知记录上的期望误差。一个好的分类模型必须具有低训练误差和低泛化误差。

理想的模型复杂度是能产生最低泛化误差的模型的复杂度。但建立模型过程中无法知道在未知记录上的性能,所能做的就是估计模型的泛化误差。几个方法如下:

(1)先剪枝(提前终止规则)

树增长算法在产生完全拟合整个训练数据集的完全增长的决策树之前就停止决策树的生长。优点在于避免产生过分拟合训练集的过于复杂的子树,但很难为提前终止选取正确的阈值。

(2)后剪枝

初始决策树按照最大规模生长,然后进行剪枝的步骤,按照自底向上的方式修剪完全增长的决策树。有两种做法:用新的叶子结点替换子树,该叶结点的类标号由子树下记录中的多数类确定;或用子树中最常使用的分支代替子树。当模型不能再改进时终止剪枝步骤。

决策树剪枝往往通过极小化决策树整体损失函数(loss function)或代价函数(cost function)来实现。

决策树总结 第4篇

决策树学习是从训练数据集中归纳一组分类规则、与训练数据集不相矛盾的决策树可能有多个,也可能一个没有。我们需要训练一个与训练数据矛盾较小的决策树,同时具有很好的泛化能力。从另一个角度看决策树学习是训练数据集估计条件概率模型。基于特征空间划分的类的条件概率模型有无穷多个。我们选择的条件概率模型应该是不仅对训练数据有很好的拟合,而且对未知数据有很好的预测。决策树的学习使用损失函数表示这一目标,通常的损失函数是正则化的极大似然函数。决策树的学习策略是以损失函数为目标函数的最小化。当损失函数确定后,决策树学习问题变为损失函数意义下选择最优决策树的问题。这一过程通常是一个递归选择最优特征,并根据特征对训练数据进行分割,使得对各个子数据集有一个最好分类的过程。这一过程对应着特征选择、决策树的生成、决策树的剪枝。

        特征选择在于选择对训练数据具有分类能力的特征,这样可以提高决策树的学习效率。

        决策树的生成根据不同特征作为根结点,划分不同子结点构成不同的决策树。

        决策树的选择:哪种特征作为根结点的决策树信息增益值最大,作为最终的决策树(最佳分类特征)。

        信息熵 在信息论与概率统计中,熵是表示随机变量不确定性的度量。设X是一个取有限个值的离散随机变量,其概率分布为P(X=) =,i=1,2,3...n,则随机变量X的熵定义为

        H(X) =  — ,0 <=  H(X) <= 1,熵越大,随机变量的不确定性就越大。

        条件熵(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。

        信息增益 表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。

        信息增益  = 信息熵(父结点熵 ) — 条件熵(子结点加权熵)

三、总结

        优点

        1、可解释性高,能处理非线性的数据,不需要做数据归一化,对数据分布没有偏好。

        2、可用于特征工程,特征选择。

        3、可转化为规则引擎。

        缺点

        1、启发式生成,不是最优解。

        2、容易过拟合。

        3、微小的数据改变会改变整个数的形状。

        4、对类别不平衡的数据不友好。

决策树总结 第5篇

比较不同分类器在相同领域上的性能,以确定在给定的数据集上哪个分类器效果更好。

1、保持方法(holdout) 将被标记的原始数据划分成两个不相交的集合,分别称为训练集和检验集。在训练集上归纳分类模型,在检验集上评估模型的性能。分类器的准确率根据模型在检验集上的准确率估计。

2、随机二次抽样(random subsampling) 多次重复保持方法来改进对分类器性能的估计。

3、交叉验证(cross validation) 随机二次抽样的改进。每个记录用于训练的次数相同,且恰好检验一次。K 折(K-Fold)交叉验证是把数据集分成大小相同的K 份,每次选择其中一份作检验集,其余的全作为训练集,该过程重复 K 次,使得每份数据都用于检验恰好一次。总误差是所有K 次运行的误差之和。该方法的优点是使用尽可能多的训练记录,此外检验集之间至互斥的,并且有效地覆盖了整个数据集;缺点是整个过程重复 K 次,计算开销较大。

4、自助法(bootstrap) 训练记录采用有放回抽样,即已经选作训练的记录将放回原来的记录集中,使得它等几率地重新被抽中。如果原始数据有N个记录,平均来说,大小为N的自助样本大约包含原始数据中的记录。没有抽中的记录就成为检验集的一部分,将训练集建立的模型应用到检验集上,得到自助样本准确率的一个估计。