如何运行asp.net网站,苏州seo关键字优化,青海建设厅质检站网站,福建省建设职业注册资格管理中心网站目录
预剪枝
后剪枝
处理连续值
处理缺失值 剪枝#xff08;pruning#xff09;是决策树学习算法对付“过拟合”的主要手段。
在决策树学习过程中#xff0c;有时会造成决策树分枝过多#xff0c;就可能造成过拟合#xff0c;可通过主动去掉一些分支来降低过离合的风…目录
预剪枝
后剪枝
处理连续值
处理缺失值 剪枝pruning是决策树学习算法对付“过拟合”的主要手段。
在决策树学习过程中有时会造成决策树分枝过多就可能造成过拟合可通过主动去掉一些分支来降低过离合的风险。决策树剪枝的基本策略有“预剪枝”prepruning和“后剪枝”postpruning。
预剪枝
预剪枝是指在决策树的生成过程中对每个节点在划分前先进行估计若当前节点的划分不能带来决策数泛化性能提升则停止划分并将当前节点标记为叶节点。后剪枝是先从训练集生成一颗完整的决策树然后自底向上的对非叶节点进行考察若将该节点对应的子树替换为叶节点能带来决策树泛化性能提升则将该子树替换为叶节点。那么如何判断决策树的泛化性能提升呢可以使用验证集进行验证。一颗仅有一层划分的决策树称为“决策树桩”decision stumb。预剪枝使得决策树的很多分支都不进行展开这既降低了过拟合的风险又显著减少了决策树的训练时间开销和测试时间开销。另一方面有些分支的当前划分虽不能提升泛化性能甚至可能导致泛化性能暂时下降但是在其基础进行的后续划分却有可能导致性能显著提高。这给预剪枝决策树带来了欠拟合的风险。预剪枝的本质是一种“贪心”算法。
后剪枝
后剪枝决策树通常比预减值决策树保留了更多的分支一般情况下后剪纸决策树的欠拟合风险很小泛化性能往往优于预剪纸的决策树。后剪枝的训练时间开销比未剪枝决策树和预剪枝决策树都要大很多。
处理连续值
在处理分类时都是基于离散属性来生成决策树使用离散值进行分类也比较符合人们的思维习惯。如果输入样本的属性是连续值就需要用到连续属性离散化的技术。二分法bi-partition对连续属性进行处理的最简单的策略。这也是 C4.5决策树 算法中采用的机制。与离散属性不同若当前节点划分属性为连续属性该属性还可作为其后代节点的划分属性离散属性在决策树上只出现一次。 处理缺失值
现实任务中常会遇到不完整样本即样本的某些属性值缺失。如果在属性值缺失的时候丢弃该样本则会造成样本变得很小因此有必要考虑利用缺失属性值的训练样例来进行学习。缺失值的处理需要解决两个问题 问题1如何在属性值缺失的情况下进行划分属性选择。问题2给定划分属性若样本在该属性上的值缺失如何对样本进行划分。对于问题1按照属性来 令D~表示D中在属性a上没有缺失值的样本定义ρ为无缺失值的样本比例定义pk~为无缺失值样本中第k类所占的比例定义rv~为无缺失值样本中在属性a上取值为a^v的样本所占的比例则信息增益为其中 对于问题2按照概率来 若样本x在划分属性a上的取值已知则将x划入与其取值对应的子节点且样本全值在子节点中保持为。 若样本x在划分属性a上的取值未知则将x同时划入所有的子节点且样本权值与属性值对应的子节点中调整为。也就是说让同一个样本以不同的概率划入到不同的子节点中去。 C4.5算法中使用了上述解决方案。 【西瓜书】决策树-CSDN博客