深圳网站优化多少钱,怎么做网站埋点,前端网站搜索导航怎么做,制作app页面的软件一、决策树
1、认识决策树 决策树思想的来源非常朴素#xff0c;程序设计中的条件分支结构就是if-else结构#xff0c;最早的决策树就是利用这类结构分割数据的一种分类学习方法
2、一个对话的例子
想一想这个女生为什么把年龄放在最上面判断#xff01;#xff01;程序设计中的条件分支结构就是if-else结构最早的决策树就是利用这类结构分割数据的一种分类学习方法
2、一个对话的例子
想一想这个女生为什么把年龄放在最上面判断 如何高效的进行决策特征的先后顺序
二、决策树分类原理详解
1、我们通过一个问题例子
已知有四个特征值预测是否贷款给某个人 1先看房子再看工作 -- 是否贷款只看了两个特征 2年龄信贷情况工作 -- 看了三个特征 第二种这种方式就没有第一种高效 希望能够找到一种数学的方法快速自动的判断应该先看哪个特征
2、信息论基础 需要引入信息熵、信息增益等信息论的知识
1信息 香农定义的消除随机不定性的东西 小明 年龄 我今年18岁 小华 小明明年19岁
小明说了之后小华说的这句话就变成废话了不是信息
2信息的衡量 -- 信息量 -- 信息熵
3、信息熵的定义 H的专业术语称之为信息熵单位为比特bit 4、以银行贷款数据为例计算信息熵 某人已知年龄、工作、房子、信贷情况是否贷款给这个人 需要衡量不确定性的大小 这里有两种情况一种是贷款一种是不贷款 不贷款的概率是6/15贷款的概率是9/15 H(总) -(6/15 * log 6/15 9/15 * log 9/15) 0.971
当我们知道某一个特征之后不确定性会减少 那么我们如果能求出知道某个特征之后不确定性减少的程度。再比较知道哪一个特征之后不确定性减少的程度是最多的。我们是不是可以先看这个特征
求当知道某个特征之后它的信息熵是多少 引入—信息增益
5、信息增益 决策树的划分依据之一—信息增益
1定义和公式 特征A对训练数据集D的信息增益g(D,A)定义为集合D的信息熵H(D)与特征A给定条件下D的信息条件熵H(D|A)之差 g(D,A) H(D) - 条件熵H(D|A) 信息增益就衡量了知道某个特征之后它的不确定性的减少程度
计算知道年龄之后的信息增益是多少 g(D,年龄) H(D) - H(D|年龄)
求H(D|年龄) H(青年) -(2/5 * log 2/5 3/5 * log 3/5) H(中年) -(2/5 * log 2/5 3/5 * log 3/5) H(老年) -(1/5 * log 1/5 4/5 * log 4/5) H(D|年龄) 1/3 * H(青年) 1/3 * H(中年) 1/3 * H(老年)
我们以A1、A2、A3、A4代表年龄、有工作、有自己的房子和贷款情况。最终计算的结果g(D, A1) 0.313, g(D, A2) 0.324, g(D, A3) 0.420,g(D, A4) 0.363。所以我们选择A3作为划分的第一个特征
2公式