当前位置：首页 > news >正文

昆明建设银行纪念币预约网站网页如何赚钱

news 2025/12/1 13:11:08

昆明建设银行纪念币预约网站,网页如何赚钱,山西省住房和城乡建设厅网站,外包加工网邀请码梯度提升算法是最常用的集成机器学习技术之一#xff0c;该模型使用弱决策树序列来构建强学习器。这也是XGBoost和LightGBM模型的理论基础#xff0c;所以在这篇文章中#xff0c;我们将从头开始构建一个梯度增强模型并将其可视化。梯度提升算法介绍梯度提升算法#x…梯度提升算法是最常用的集成机器学习技术之一该模型使用弱决策树序列来构建强学习器。这也是XGBoost和LightGBM模型的理论基础所以在这篇文章中我们将从头开始构建一个梯度增强模型并将其可视化。梯度提升算法介绍梯度提升算法Gradient Boosting是一种集成学习算法它通过构建多个弱分类器然后将它们组合成一个强分类器来提高模型的预测准确率。梯度提升算法的原理可以分为以下几个步骤初始化模型一般来说我们可以使用一个简单的模型比如说决策树作为初始的分类器。计算损失函数的负梯度计算出每个样本点在当前模型下的损失函数的负梯度。这相当于是让新的分类器去拟合当前模型下的误差。训练新的分类器用这些负梯度作为目标变量训练一个新的弱分类器。这个弱分类器可以是任意的分类器比如说决策树、线性模型等。更新模型将新的分类器加入到原来的模型中可以用加权平均或者其他方法将它们组合起来。重复迭代重复上述步骤直到达到预设的迭代次数或者达到预设的准确率。由于梯度提升算法是一种串行算法所以它的训练速度可能会比较慢我们以一个实际的例子来介绍假设我们有一个特征集Xi和值Yi要计算y的最佳估计我们从y的平均值开始每一步我们都想让F_m(x)更接近y|x。在每一步中我们都想要F_m(x)一个更好的y给定x的近似。首先我们定义一个损失函数然后我们向损失函数相对于学习者Fm下降最快的方向前进: 因为我们不能为每个x计算y所以不知道这个梯度的确切值但是对于训练数据中的每一个x_i梯度完全等于步骤m的残差:r_i! 所以我们可以用弱回归树h_m来近似梯度函数g_m对残差进行训练: 然后我们更新学习器这就是梯度提升我们不是使用损失函数相对于当前学习器的真实梯度g_m来更新当前学习器F_{m}而是使用弱回归树h_m来更新它。也就是重复下面的步骤 1、计算残差: 2、将回归树h_m拟合到训练样本及其残差(x_i, r_i)上 3、用步长\alpha更新模型看着很复杂对吧下面我们可视化一下这个过程就会变得非常清晰了决策过程可视化这里我们使用sklearn的moons 数据集因为这是一个经典的非线性分类数据 import numpy as npimport sklearn.datasets as dsimport pandas as pdimport matplotlib.pyplot as pltimport matplotlib as mplfrom sklearn import treefrom itertools import product,isliceimport seaborn as snsmoonDS ds.make_moons(200, noise 0.15, random_state16)moon moonDS[0]color -1*(moonDS[1]*2-1)df pd.DataFrame(moon, columns [x,y])df[z] colordf[f0] df.y.mean()df[r0] df[z] - df[f0]df.head(10)让我们可视化数据下图可以看到该数据集是可以明显的区分出分类的边界的但是因为他是非线性的所以使用线性算法进行分类时会遇到很大的困难。那么我们先编写一个简单的梯度增强模型: def makeiteration(i:int):Takes the dataframe ith f_i and r_i and approximated r_i from the features, then computes f_i1 and r_i1clf tree.DecisionTreeRegressor(max_depth1)clf.fit(Xdf[[x,y]].values, y df[fr{i-1}])df[fr{i-1}hat] clf.predict(df[[x,y]].values)eta 0.9df[ff{i}] df[ff{i-1}] eta*df[fr{i-1}hat]df[fr{i}] df[z] - df[ff{i}]rmse (df[fr{i}]**2).sum()clfs.append(clf)rmses.append(rmse)上面代码执行3个简单步骤: 将决策树与残差进行拟合: clf.fit(Xdf[[x,y]].values, y df[fr{i-1}])df[fr{i-1}hat] clf.predict(df[[x,y]].values)然后我们将这个近似的梯度与之前的学习器相加: df[ff{i}] df[ff{i-1}] eta*df[fr{i-1}hat]最后重新计算残差: df[fr{i}] df[z] - df[ff{i}]步骤就是这样简单下面我们来一步一步执行这个过程。第1次决策 Tree Split for 0 and level 1.563690960407257 第2次决策 Tree Split for 1 and level 0.5143677890300751 第3次决策 Tree Split for 0 and level -0.6523728966712952 第4次决策 Tree Split for 0 and level 0.3370491564273834 第5次决策 Tree Split for 0 and level 0.3370491564273834 第6次决策 Tree Split for 1 and level 0.022058885544538498 第7次决策 Tree Split for 0 and level -0.3030575215816498 第8次决策 Tree Split for 0 and level 0.6119407713413239 第9次决策可以看到通过9次的计算基本上已经把上面的分类进行了区分我们这里的学习器都是非常简单的决策树只沿着一个特征分裂!但整体模型在每次决策后边的越来越复杂并且整体误差逐渐减小。 plt.plot(rmses)这也就是上图中我们看到的能够正确区分出了大部分的分类如果你感兴趣可以使用下面代码自行实验 https://avoid.overfit.cn/post/533a0736b7554ef6b8464a5d8ba964ab 作者:Tanguy Renaudie

查看全文

http://www.dnsts.com.cn/news/65085.html