具体阐述对网站如何加强建设,全网营销课程,各大网站发布信息,wordpress 加上index参考课程视频#xff1a;https://www.icourse163.org/course/NEU-1462101162?tid1471214452 1 概述
样子#xff1a;
2 分裂
2.1 分裂原则
信息增益
信息增益比
基尼指数
3 终止 剪枝
3.1 终止条件
无需分裂 当前节点内样本同属一类 无法分裂 当前节点内… 参考课程视频https://www.icourse163.org/course/NEU-1462101162?tid1471214452 1 概述
样子
2 分裂
2.1 分裂原则
信息增益
信息增益比
基尼指数
3 终止 剪枝
3.1 终止条件
无需分裂 当前节点内样本同属一类 无法分裂 当前节点内所有样本的特征向量完全相同采用任何特征都无法将当前样本集分为多个子类 无数据可分 当前节点内没有样本
3.2 剪枝
剪枝的目的解决决策树过拟合现象决策树规模大提高决策树的泛化性能。
剪枝方法
前剪枝预剪枝 在决策树的生成过程中同步进行剪枝在节点进行分裂前对比节点分裂前后决策树的泛化性能指标若泛化性能在分裂后得到提升执行分裂否则不执行分裂。 后剪枝 在决策树完全生成后逐步剪去叶子节点常采用启发式方法从最深层的叶子节点或具有最高不纯度的 叶子节点开始剪枝通过对比剪枝前后的泛化指标决定是否剪去该叶子节点。
前剪枝 后剪枝 策略对比
策略时间拟合风险泛化能力前剪枝训练时间较少、测试时间较少过拟合风险较低 、欠拟合风险较高泛化能力一般后剪枝训练时间较长、测试时间较少过拟合风险较低、欠拟合风险稳定泛化能力较好
通常后剪枝比前剪枝保留的决策树规模更大。
4 决策树算法
4.1 经典决策树算法
ID3
C4.5
CART(Classification And Regression Tree)
4.2 算法对比分析
算法特征选择剪枝处理数据类型树类型ID3信息增益无离散多叉树C4.5信息增益比前剪枝离散、连续多叉树CART基尼指数后剪枝离散、连续二叉树
总结 CART的功能更全分类、回归CART具有更好的泛化性能二叉树后剪枝。CART训练时间较长计算开销较大。信息增益、信息增益比和基尼指数各有利弊。