当前位置：首页 > news >正文

网站建设销售话重庆装修公司有哪些

news 2025/11/17 8:12:59

网站建设销售话,重庆装修公司有哪些,wordpress 本地搭建,做电子书的网站很有名后来被关闭了文章目录一、xgboost库与XGB的sklearn APIXGBoost的三大板块二、梯度提升树提升集成算法#xff1a;重要参数n_estimators三、有放回随机抽样#xff1a;重要参数subsample四、迭代决策树#xff1a;重要参数eta总结一、xgboost库与XGB的sklearn API 现在#xff0c;我们有… 文章目录一、xgboost库与XGB的sklearn APIXGBoost的三大板块二、梯度提升树提升集成算法重要参数n_estimators三、有放回随机抽样重要参数subsample四、迭代决策树重要参数eta总结一、xgboost库与XGB的sklearn API 现在我们有两种方式可以来使用我们的xgboost库。第一种方式是直接使用xgboost库自己的建模流程。 params {eta, gamma, max_depth, min_child_weight, max_delta_step, subsample, colsample_bytree, colsample_bylevel, colsample_bynode, lambda, alpha, tree_method string, sketch_eps, scale_pos_weight, updater, refresh_leaf, process_type, grow_policy, max_leaves, max_bin, predictor, num_parallel_tree} xgboost.train (params, dtrain, num_boost_round10, evals(), objNone, fevalNone, maximizeFalse, early_stopping_roundsNone, evals_resultNone, verbose_evalTrue, xgb_modelNone, callbacksNone, learning_ratesNone) 或者我们也可以选择第二种方法使用xgboost库中的sklearn的API。这是说我们可以调用如下的类并用我们 sklearn当中惯例的实例化fit和predict的流程来运行XGB并且也可以调用属性比如coef_等等。当然这是我们回归的类我们也有用于分类用于排序的类。他们与回归的类非常相似因此了解一个类即可。 class xgboost.XGBRegressor (max_depth3, learning_rate0.1, n_estimators100, silentTrue, objective‘reg:linear’, booster‘gbtree’, n_jobs1, nthreadNone, gamma0, min_child_weight1, max_delta_step0, subsample1, colsample_bytree1, colsample_bylevel1, reg_alpha0, reg_lambda1, scale_pos_weight1, base_score0.5, random_state0, seedNone, missingNone, importance_type‘gain’, **kwargs) 看到这长长的参数条目可能大家会感到头晕眼花——没错XGB就是这门复杂。但是眼尖的小伙伴可能已经发现了调用xgboost.train和调用sklearnAPI中的类XGBRegressor需要输入的参数是不同的而且看起来相当的不同。但其实这些参数只是写法不同功能是相同的。比如说我们的params字典中的第一个参数eta其实就是我们 XGBRegressor里面的参数learning_rate他们的含义和实现的功能是一模一样的。只不过在sklearnAPI中开发团队友好地帮助我们将参数的名称调节成了与sklearn中其他的算法类更相似的样子。所以对我们来说使用xgboost中设定的建模流程来建模和使用sklearnAPI中的类来建模模型效果是比较相似的但是xgboost库本身的运算速度尤其是交叉验证以及调参手段比sklearn要简单。我们的课是sklearn课堂因此在今天的课中我会先使用sklearnAPI来为大家讲解核心参数包括不同的参数在xgboost的调用流程和sklearn 的API中如何对应然后我会在应用和案例之中使用xgboost库来为大家展现一个快捷的调参过程。如果大家希望探索一下这两者是否有差异那必须具体到大家本身的数据集上去观察。 XGBoost的三大板块二、梯度提升树 class xgboost.XGBRegressor (max_depth3, learning_rate0.1, n_estimators100, silentTrue, objective‘reg:linear’, booster‘gbtree’, n_jobs1, nthreadNone, gamma0, min_child_weight1, max_delta_step0, subsample1, colsample_bytree1, colsample_bylevel1, reg_alpha0, reg_lambda1, scale_pos_weight1, base_score0.5, random_state0, seedNone, missingNone, importance_type‘gain’, **kwargs) 提升集成算法重要参数n_estimators XGBoost的基础是梯度提升算法因此我们必须先从了解梯度提升算法开始。梯度提升Gradient boosting是构建预测模型的最强大技术之一它是集成算法中提升法Boosting的代表算法。集成算法通过在数据上构建多个弱评估器汇总所有弱评估器的建模结果以获取比单个模型更好的回归或分类表现。弱评估器被定义为是表现至少比随机猜测更好的模型即预测准确率不低于50%的任意模型。集成不同弱评估器的方法有很多种。有像我们曾经在随机森林的课中介绍的一次性建立多个平行独立的弱评估器的装袋法。也有像我们今天要介绍的提升法这样逐一构建弱评估器经过多次迭代逐渐累积多个弱评估器的方法。提升法的中最著名的算法包括Adaboost和梯度提升树XGBoost就是由梯度提升树发展而来的。梯度提升树中可以有回归树也可以有分类树两者都以CART树算法作为主流XGBoost背后也是CART树这意味着XGBoost中所有的树都是二叉的。接下来我们就以梯度提升回归树为例子来了解一下Boosting算法是怎样工作的。梯度提升回归树是专注于回归的树模型的提升集成模型其建模过程大致如下最开始先建立一棵树然后逐渐迭代每次迭代过程中都增加一棵树逐渐形成众多树模型集成的强评估器。对于梯度提升回归树来说每个样本的预测结果可以表示为所有树上的结果的加权求和其中是树的总数量代表第棵树是这棵树的权重表示这棵树上的预测结果。值得注意的是XGB作为GBDT的改进在上却有所不同。对于XGB来说每个叶子节点上会有一个预测分数 prediction score也被称为叶子权重。这个叶子权重就是所有在这个叶子节点上的样本在这一棵树上的回归取值用或者来表示其中表示第棵决策树表示样本对应的特征向量。当只有一棵树的时候就是提升集成算法返回的结果但这个结果往往非常糟糕。当有多棵树的时候集成模型的回归结果就是所有树的预测分数之和假设这个集成模型中总共有棵决策树则整个模型在这个样本上给出的预测结果为回忆一下我们曾经在随机森林中讲解过的方差-偏差困境。在机器学习中我们用来衡量模型在未知数据上的准确率的指标叫做泛化误差Genelization error。一个集成模型(f)在未知数据集(D)上的泛化误差由方差 (var)偏差(bais)和噪声(ε)共同决定。其中偏差就是训练集上的拟合程度决定方差是模型的稳定性决定噪音是不可控的。而泛化误差越小模型就越理想。三、有放回随机抽样重要参数subsample 首先我们有一个巨大的数据集在建第一棵树时我们对数据进行初次又放回抽样然后建模。建模完毕后我们对模型进行一个评估然后将模型预测错误的样本反馈给我们的数据集一次迭代就算完成。紧接着我们要建立第二棵决策树于是开始进行第二次又放回抽样。但这次有放回抽样和初次的随机有放回抽样就不同了在这次的抽样中我们加大了被第一棵树判断错误的样本的权重。也就是说被第一棵树判断错误的样本更有可能被我们抽中。基于这个有权重的训练集来建模我们新建的决策树就会更加倾向于这些权重更大的很容易被判错的样本。建模完毕之后我们又将判错的样本反馈给原始数据集。下一次迭代的时候被判错的样本的权重会更大新的模型会更加倾向于很难被判断的这些样本。如此反复迭代越后面建的树越是之前的树们判错样本上的专家越专注于攻克那些之前的树们不擅长的数据。对于一个样本而言它被预测错误的次数越多被加大权重的次数也就越多。我们相信只要弱分类器足够强大随着模型整体不断在被判错的样本上发力这些样本会渐渐被判断正确。如此就一定程度上实现了我们每新建一棵树模型的效果都会提升的目标。四、迭代决策树重要参数eta 虽然从图上来说默认的0.1看起来是一个比较理想的情况并且看起来更小的步长更利于现在的数据但我们也无法确定对于其他数据会有怎么样的效果。所以通常我们不调整即便调整一般它也会在[0.01,0.2]之间变动。如果我们希望模型的效果更好更多的可能是从树本身的角度来说对树进行剪枝而不会寄希望于调整。梯度提升树是XGB的基础本节中已经介绍了XGB中与梯度提升树的过程相关的四个参数n_estimators learning_rate silentsubsample。这四个参数的主要目的其实并不是提升模型表现更多是了解梯度提升树的原理。现在来看我们的梯度提升树可是说是由三个重要的部分组成一个能够衡量集成算法效果的能够被最优化的损失函数Obj一个能够实现预测的弱评估器fkx一种能够让弱评估器集成的手段包括我们讲解的迭代方法抽样手段样本加权等等过程 XGBoost是在梯度提升树的这三个核心要素上运行它重新定义了损失函数和弱评估器并且对提升算法的集成手段进行了改进实现了运算速度和模型效果的高度平衡。并且XGBoost将原本的梯度提升树拓展开来让XGBoost不再是单纯的树的集成模型也不只是单单的回归模型。只要我们调节参数我们可以选择任何我们希望集成的算法以及任何我们希望实现的功能。总结

查看全文

http://www.dnsts.com.cn/news/8738.html