当前位置: 首页 > news >正文

自助下单网站怎么做重要的网站建设

自助下单网站怎么做,重要的网站建设,项目建设目标,4399游戏网页版Boosting Bhlmann, P., Yu, B. (2009). Boosting. Wiley Interdisciplinary Reviews: Computational Statistics, 2(1), 69–74. doi:10.1002/wics.55 摘要 在本文中#xff0c;我们回顾了Boost方法#xff0c;这是分类和回归中最有效的机器学习方法之一。虽然我们也讨…Boosting Bühlmann, P., Yu, B. (2009). Boosting. Wiley Interdisciplinary Reviews: Computational Statistics, 2(1), 69–74. doi:10.1002/wics.55 摘要 在本文中我们回顾了Boost方法这是分类和回归中最有效的机器学习方法之一。虽然我们也讨论了边际观点margin point of view但主要采用梯度下降的视角。文章特别介绍了分类中的 AdaBoost 和回归中的各种 L2Boosting 版本。同时我们还为实践者提供了如何选择基础弱学习器和损失函数的建议并给出了相关软件的使用指引。 Boosting 是一种现代统计方法起源于20世纪90年代中期的机器学习用于分类和回归。在过去几年中Boosting 在理解和建模实际数据方面取得了显著进展。Boosting 被成功应用于许多领域包括文本挖掘、图像分割、语言翻译、生物信息学、神经科学和金融等。 Boosting 具有以下几个特点 集成方法通过线性组合多个“弱学习器”形成的集成方法。优化相关与优化通常是凸的梯度下降迭代算法密切相关。这个特性与其他机器学习方法如 bagging 和随机森林共享。提前停止通过提前停止来实现正则化这将正则化与数值优化结合使得 Boosting 非常独特。数据加权Boosting 会根据前一次迭代的结果重新加权数据样本这是因为损失函数梯度的形式导致的尽管这一特点并非所有 Boosting 变体都具有但在原始的 AdaBoost 算法中是非常重要的。 Kearns 和 Valiant 在“可能近似正确”probably approximately correctPAC学习的框架中提出了一个猜想即 一个成功率稍高于50%的弱分类器可以通过 Boosting 转化为一个强分类器 使得新的分类器训练误差趋于零并且在多项式时间内完成计算。 在他的获奖麻省理工学院计算机科学论文中回答了这一问题并且 Freund 和 Schapire 设计了第一个实用的 Boosting 算法 AdaBoost用于二分类问题。 Breiman 通过从 梯度下降 的角度重新推导出 AdaBoost将 AdaBoost 与优化紧密联系起来。他基于边际即真实标签 y ∈ { − 1 , 1 } y \in \{-1, 1\} y∈{−1,1} 与预测值 f f f 的乘积 y f yf yf的指数损失函数进行了推导。这一联系进一步被 Friedman 等人和 Mason 等人发展。 在统计学界通过对不同损失函数的广义 AdaBoost 和通过不同的梯度下降方法衍生出了许多 Boosting 变体。最著名的包括分类中的 LogitBoost 和回归中的 L2Boosting。 机器学习社区的另一研究方向则集中在边际视角the margin view point下的 AdaBoost最近的研究强调了 AdaBoost 的集成和重新加权方面。 Boosting 的理论分析由理论统计学和理论机器学习社区共同发展。统计学家研究了如贝叶斯一致性和模型选择一致性以及提前停止时各种 Boosting 方法的 Minimax 收敛率而机器学习学者则研究了 Boosting 的算法收敛性和通过边际分布和模型类的复杂性测量及样本大小对 AdaBoost 泛化误差的上界。 这些理论分析的一个重要见解是Boosting 过程的复杂性并不是迭代次数的简单线性函数。例如在一个简单的回归案例中复杂性随着迭代次数的增加而以指数递减的方式增长—— 复杂性上界由噪声方差决定并且随着迭代次数增加增加的复杂量变得极小 。这部分解释了 AdaBoost 的 抗过拟合特性 。 最终AdaBoost 和其他所有 Boosting 方法都会过拟合但在分类问题中由于评估0-1损失函数的鲁棒性以及 Boosting 复杂性的缓慢增加这个过程可能会持续很长时间。大多数理论研究都是在独立同分布i.i.d.假设下进行的但也有一些研究对平稳数据源stationary data sources进行了推广。 本文主要从梯度下降的角度回顾 Boosting 算法。我们将特别介绍 AdaBoost、LogitBoost 和 L2Boosting 算法。在简要讨论边际视角之后我们将讨论损失函数、基础学习器和停止规则的选择。 梯度下降的角度 我们从梯度下降的角度描述 Boosting 算法特别是介绍用于分类的 AdaBoost 和 LogitBoost对应于不同的损失函数 L L L 以及用于回归的各种版本的 L2Boosting对应于 L 2 L2 L2 损失函数。最后我们简要提及从经验损失empirical loss到惩罚经验损失penalized empirical loss如回归中的 Lasso 的 Boosting 泛化。 L 2 L2 L2 损失函数也叫均方误差 (Mean Squared Error, MSE)是机器学习和统计中常用的一种衡量模型预测误差的方法。它通过计算预测值与实际值之间差值的平方然后取这些平方误差的平均值来表示。具体公式如下 L 2 损失 1 n ∑ i 1 n ( y i − y ^ i ) 2 L2 \text{ 损失} \frac{1}{n} \sum_{i1}^n (y_i - \hat{y}_i)^2 L2 损失n1​i1∑n​(yi​−y^​i​)2 其中 y i y_i yi​ 是第 i i i 个实际值 y ^ i \hat{y}_i y^​i​ 是第 i i i 个预测值 n n n 是样本数量 L 2 L2 L2 损失函数惩罚大的误差使得模型更关注较大的偏差。 假设我们观察到 ( X 1 , Y 1 ) , … , ( X n , Y n ) (X1, Y1), \ldots, (Xn, Yn) (X1,Y1),…,(Xn,Yn)其中 X i ∈ R p Xi \in \mathbb{R}^p Xi∈Rp 表示一个 p p p 维预测变量 Y i Y_i Yi​ 表示一个单变量响应univariate response例如在回归中取值于 R \mathbb{R} R 或在二分类中取值于 { − 1 , 1 } \{-1, 1\} {−1,1} 。 接下来我们用 X ( j ) X^{(j)} X(j) 表示向量 X ∈ R p X \in \mathbb{R}^p X∈Rp 的第 j j j 个分量。我们通常假设对 ( X i , Y i ) (Xi, Yi) (Xi,Yi) 是独立同分布i.i.d.或来自平稳过程stationary process。目标是估计回归函数 F ( x ) E [ Y ∣ X x ] F(x) \mathbb{E}[Y|X x] F(x)E[Y∣Xx] 或找到分类器 sign ( F ( x ) ) \text{sign}(F(x)) sign(F(x))其中 F ( x ) : R p → R F(x): \mathbb{R}^p \rightarrow \mathbb{R} F(x):Rp→R 。 通过实值损失函数real-valued loss function评估估计性能意思是我们想最小化期望损失或风险 E [ L ( Y , F ( X ) ) ] (2) \mathbb{E}[L(Y, F(X))] \tag{2} E[L(Y,F(X))](2) 基于数据 ( X i , Y i ) ( i 1 , . . . , n ) (Xi, Yi)(i 1, ..., n) (Xi,Yi)(i1,...,n)。假设损失函数 L L L 在第二个参数上是平滑和凸的因此可以应用梯度方法。 通过在基础学习器上的函数梯度下降最小化经验损失函数可以得到 Boosting 算法。 n − 1 ∑ i 1 n L ( Y i , F ( X i ) ) , (3) n^{-1} {\textstyle \sum_{i 1}^{n}} L(Y_i , F(X_i)), \tag{3} n−1∑i1n​L(Yi​,F(Xi​)),(3) 基础学习器的形式为 h ( x , θ ^ ) ( x ∈ R p ) h(x, \hat{\theta})(x \in \mathbb{R}^p) h(x,θ^)(x∈Rp) 其中 θ ^ \hat{\theta} θ^ 是有限或无限维度的估计参数。 例如基础学习器可以是树桩 θ ^ \hat{\theta} θ^ 描述分裂的轴、分裂点和两个终端节点的拟合值。基于数据拟合基础学习器是基础学习器的一部分。 Boosting 方法论通常基于用户确定的基础过程或弱学习器并在修改后的数据上反复使用它们这些数据通常是先前迭代的输出。最终的 Boosting 过程采用基础过程的线性组合的形式。具体来说给定一个基础学习器 h ( x , θ ) h(x, \theta) h(x,θ)Boosting 可以作为损失函数 L L L 上的函数梯度下降来推导。 Boosting梯度下降视角 从 F 0 ( x ) 0 F_0(x) 0 F0​(x)0 开始。给定 F m − 1 ( x ) F_{m−1}(x) Fm−1​(x)设 ( β m , h ( x , θ ^ m ) ) ) arg min ⁡ β ∈ R , θ ∑ i 1 n L ( Y i , F m − 1 ( X i ) β h ( x , θ ) ) 。 (\beta_m, h(x, \hat{\theta}_m))) \argmin_{\beta \in \mathbb{R}, \theta} \sum_{i1}^n L(Y_i, F_{m−1}(X_i) \beta h(x, \theta))。 (βm​,h(x,θ^m​)))β∈R,θargmin​i1∑n​L(Yi​,Fm−1​(Xi​)βh(x,θ))。 设 F m ( x ) F m − 1 ( x ) β m h ( x , θ ^ m ) 。 F_m(x) F_{m−1}(x) \beta_m h(x, \hat{\theta}_m)。 Fm​(x)Fm−1​(x)βm​h(x,θ^m​)。 当 m M m M mM 时停止。 AdaBoost 分类器为 sign ( F M ( x ) ) \text{sign}(F_M(x)) sign(FM​(x)) 。 分类 在二分类中 y ∈ { − 1 , 1 } y \in \{-1, 1\} y∈{−1,1} 最常用的损失是 0-1 损失。即对于分类器 sign ( F ( x ) ) ∈ { − 1 , 1 } \text{sign}(F(x)) \in \{-1, 1\} sign(F(x))∈{−1,1} 如果 x x x 的标签是 y ∈ { − 1 , 1 } y \in \{-1, 1\} y∈{−1,1}则 0-1 损失可以写成边际margin y F ( x ) yF(x) yF(x) 的函数 0-1 损失是一种简单的损失函数主要用于分类问题。它表示预测是否正确的损失即当预测错误时损失为1预测正确时损失为0。具体公式如下 0 − 1 损失 { 1 , 如果预测错误 0 , 如果预测正确 0-1 \text{ 损失} \begin{cases} 1, \text{如果预测错误} \\ 0, \text{如果预测正确} \end{cases} 0−1 损失{1,0,​如果预测错误如果预测正确​ 例如如果模型预测结果与实际结果不一致损失为1如果一致损失为0。 L 01 ( y , F ( x ) ) I { y F ( x ) 0 } 。 L_{01}(y, F(x)) I \{yF(x) 0\}。 L01​(y,F(x))I{yF(x)0}。 很容易看出指数损失函数 L exp ( y , F ( x ) ) exp ⁡ ( − y F ( x ) ) L_{\text{exp}}(y, F(x)) \exp (-yF(x)) Lexp​(y,F(x))exp(−yF(x)) 是 L 01 L_{01} L01​ 的上界其总体最小化器是对数几率比的一半 F ( x ) 1 2 log ⁡ P ( Y 1 ∣ X x ) P ( Y − 1 ∣ X x ) 。 F(x) \frac{1}{2} \log \frac{P(Y 1|X x)}{P(Y −1|X x)}。 F(x)21​logP(Y−1∣Xx)P(Y1∣Xx)​。 例如在 AdaBoost 中弱或基础学习器是一个将给定训练数据集映射到训练误差低于随机猜测小于50%的分类器的过程。常用的是基于树的分类器。AdaBoost 通过以加法方式改进当前拟合以最小化基础学习器上的经验指数损失函数作用于修改后的数据集和乘数。 AdaBoost 从 F 0 ( x ) 0 F_0(x) 0 F0​(x)0 开始给定 F m − 1 ( x ) F_{m−1}(x) Fm−1​(x)设 w i ( m ) exp ⁡ ( − Y i F m − 1 ( X i ) ) (9) w_i^{(m)} \exp(-Y_i F_{m−1}(X_i)) \tag{9} wi(m)​exp(−Yi​Fm−1​(Xi​))(9) h ( x , θ ^ m ) arg min ⁡ θ ∑ i 1 n w i ( m ) I { Y i ≠ h ( X i , θ ) } (10) h(x, \hat{\theta}_m) \argmin_{\theta} \sum_{i1}^n w_i^{(m)} I \{Y_i \ne h(X_i, \theta)\} \tag{10} h(x,θ^m​)θargmin​i1∑n​wi(m)​I{Yi​h(Xi​,θ)}(10) 并记 h ( ⋅ , θ ^ m ) h(\cdot, \hat{\theta}_m) h(⋅,θ^m​) 的关联误差为 err m ∑ i 1 w i ( m ) I { Y i ≠ h ( X i , θ ^ m ) } ∑ i 1 w i ( m ) 。 \text{err}_m \frac{\sum_{i1} w_i^{(m)} I \{Y_i \ne h(X_i, \hat{\theta}_m)\}}{\sum_{i1} w_i^{(m)}}。 errm​∑i1​wi(m)​∑i1​wi(m)​I{Yi​h(Xi​,θ^m​)}​。 进一步设 β m 1 2 log ⁡ 1 − err m err m 。 \beta_m \frac{1}{2} \log \frac{1 - \text{err}_m}{\text{err}_m}。 βm​21​logerrm​1−errm​​。 设 F m ( x ) F m − 1 ( x ) β m h ( x , θ ^ m ) 。 F_m(x) F_{m−1}(x) \beta_m h(x, \hat{\theta}_m)。 Fm​(x)Fm−1​(x)βm​h(x,θ^m​)。 当 m M m M mM 时停止。AdaBoost 分类器为 y sign ( F M ( x ) ) y \text{sign}(F_M(x)) ysign(FM​(x)) 。 显然AdaBoost 算法的两个关键输入是基础学习器 h ( ⋅ , θ ) h(\cdot, \theta) h(⋅,θ) 的选择和 M 的停止规则。在许多实证研究中已经有效地使用了树桩或八节点树eight-node trees作为基础学习器。停止迭代 M 作为正则化参数。当数据集较大时可以使用测试数据集或交叉验证来找到这样的 M。当 M 趋于无穷大时已证明 AdaBoost 估计器收敛于线性组合基础学习器集合上经验指数损失的最小化。 换句话说AdaBoost 算法通过不断调整和组合基础学习器使得最终的组合模型在训练数据上的指数损失最小化。也就是说当算法的迭代次数足够多时AdaBoost 找到的模型是所有可能的基础学习器线性组合中使经验指数损失在训练数据上的损失最小的那个模型。 八节点树是一种决策树每个树最多有八个终端节点或叶子节点。决策树是一种基于树结构的模型用于分类或回归任务。每个节点根据特定特征对数据进行分割直到到达叶子节点叶子节点代表最终的分类或预测值。八节点树具体指最多有八个这样的叶子节点。 正则化参数是一种控制模型复杂度的参数用于防止模型过拟合。过拟合是指模型在训练数据上表现很好但在新数据上表现不佳。正则化通过在损失函数中添加额外的惩罚项来限制模型的复杂度惩罚项通常是模型参数的大小。 常见的正则化方法包括 L1 正则化Lasso惩罚模型参数的绝对值之和。L2 正则化Ridge惩罚模型参数的平方和。 正则化参数决定了惩罚项的权重。例如在 L2 正则化中损失函数变为 L 2 损失 1 n ∑ i 1 n ( y i − y ^ i ) 2 λ ∑ j 1 p θ j 2 L2 \text{ 损失} \frac{1}{n} \sum_{i1}^n (y_i - \hat{y}_i)^2 \lambda \sum_{j1}^p \theta_j^2 L2 损失n1​i1∑n​(yi​−y^​i​)2λj1∑p​θj2​ 其中 λ \lambda λ 就是正则化参数 θ j \theta_j θj​ 是模型的参数。通过调整 λ \lambda λ 的值我们可以控制正则化的强度从而平衡模型的拟合能力和复杂度。 我们将进一步讨论基础过程的选择和一些 M 的停止规则。 LogitBoost 如果损失函数是具有逻辑链函数log-likelihood的逻辑模型的负对数似然函数我们得到损失函数 log ⁡ ( 1 exp ⁡ ( − y F ) ) \log(1 \exp(-yF)) log(1exp(−yF)) 当 y F ≤ 0 yF \leq 0 yF≤0 时 exp ⁡ ( − y F ) ≥ 1 \exp(-yF) \geq 1 exp(−yF)≥1因此 1 exp ⁡ ( − y F ) ≥ 2 1 \exp(-yF) \geq 2 1exp(−yF)≥2 所以 log ⁡ 2 ( 1 exp ⁡ ( − y F ) ) ≥ log ⁡ 2 ( 2 ) 1 \log_2(1 \exp(-yF)) \geq \log_2(2) 1 log2​(1exp(−yF))≥log2​(2)1 或等效地 L logit ( y , F ) log ⁡ 2 ( 1 exp ⁡ ( − y F ) ) L_{\text{logit}}(y, F) \log_2(1 \exp(-yF)) Llogit​(y,F)log2​(1exp(−yF)) 它作为边际 y F yF yF 的 0-1 损失函数的上界。此外 L logit L_{\text{logit}} Llogit​ 的期望损失由与指数损失函数中相同的函数最小化。 在多类情况下可以使用多项式模型中的对数似然函数应用梯度下降算法以获得多类 Boosting 算法。然而通常在实践中使用一对多的方法将多类问题转化为多个二分类问题这样就可以应用 AdaBoost 或 LogitBoost。 回归平方误差损失下的 Boosting 在回归中一个自然的损失函数是平方误差损失。使用这个损失函数时我们得到 L2Boosting。应用带平方损失的梯度下降 Boosting 算法时最终会重复拟合基础学习器的残差。同样地L2Boosting 是经验平方误差风险 1 n ∑ i 1 n ( Y i − F ( X i ) ) 2 \frac{1}{n} \sum_{i1}^{n}(Y_i - F(X_i))^2 n1​∑i1n​(Yi​−F(Xi​))2相对于 F ( ⋅ ) F(\cdot) F(⋅) 的“受约束”最小化过程得到一个估计器 F ^ ( ⋅ \hat{F}(\cdot F^(⋅ )。 经验风险最小化的正则化再次隐含地通过基础程序的选择和算法约束如早停或某些惩罚边界实现。 L2Boosting使用基础程序 h ( ⋅ , θ ) h(\cdot, \theta) h(⋅,θ) 从 F 0 0 F_0 0 F0​0 开始。给定 F m − 1 ( x ) F_{m-1}(x) Fm−1​(x)计算残差 U i Y i − F m − 1 ( X i ) U_i Y_i - F_{m-1}(X_i) Ui​Yi​−Fm−1​(Xi​) i 1 , . . . , n i 1, ..., n i1,...,n 。将基础程序拟合到当前残差 h ( x , θ ^ m ) arg ⁡ min ⁡ θ ∑ i 1 n ( U i − h ( X i , θ ) ) 2 , h(x, \hat{\theta}_m) \arg\min_{\theta} \sum_{i1}^{n} (U_i - h(X_i, \theta))^2, h(x,θ^m​)argθmin​i1∑n​(Ui​−h(Xi​,θ))2, F m ( x ) F m − 1 ( x ) β m h ( x , θ ^ m ) , F_m(x) F_{m-1}(x) \beta_m h(x, \hat{\theta}_m), Fm​(x)Fm−1​(x)βm​h(x,θ^m​), 其中线搜索line search结果给出 β m ≡ 1 \beta_m \equiv 1 βm​≡1 。在 m M m M mM 时停止 F M ( x ) F_M(x) FM​(x) 是回归函数的最终估计器。 如前所述除了基础学习器 B B B 外迭代次数 M M M 是 L2Boosting 的主要调优参数。可以通过交叉验证来估计 Boosting 迭代次数。或者也可以使用某些模型选择标准来绕过交叉验证从而节省计算时间。 当基础程序只选择所有 p p p 个变量中的一个预测变量特征时梯度下降变成坐标方向梯度下降coordinatewise gradient descent。例如对于逐步平滑样条component-wise smoothing spline基础程序它拟合最小化残差平方和的预测变量Boosting 估计器得到了一个加性模型拟合。另一个广泛使用的程序是逐步线性最小二乘法得到线性模型拟合。 L2Boosting线性模型的坐标方向下降 从 F 0 0 F_0 0 F0​0 开始。给定 F m − 1 ( x ) F_{m-1}(x) Fm−1​(x)计算残差 U i Y i − F m − 1 ( X i ) U_i Y_i - F_{m-1}(X_i) Ui​Yi​−Fm−1​(Xi​) i 1 , . . . , n i 1, ..., n i1,...,n。令 X i ( j ) X_i^{(j)} Xi(j)​ 为 X i ∈ R p X_i \in \mathbb{R}^p Xi​∈Rp 的第 j j j 个分量 j ^ m arg ⁡ min ⁡ j 1 , . . . , p ∑ i 1 n ( U i − β ^ m X i ( j ) ) 2 , (18) \hat{j}_m \arg\min_{j1,...,p} \sum_{i1}^{n} (U_i - \hat{\beta}_m X_i^{(j)})^2, \tag{18} j^​m​argj1,...,pmin​i1∑n​(Ui​−β^​m​Xi(j)​)2,(18) β ^ m arg ⁡ min ⁡ β ∑ i 1 n ( U i − β X i ( j ^ m ) ) 2 , (19) \hat{\beta}_m \arg\min_{\beta} \sum_{i1}^{n} (U_i - \beta X_i^{(\hat{j}_m)})^2, \tag{19} β^​m​argβmin​i1∑n​(Ui​−βXi(j^​m​)​)2,(19) F m ( x ) F m − 1 ( x ) β ^ m x ( j ^ m ) , F_m(x) F_{m-1}(x) \hat{\beta}_m x^{(\hat{j}_m)}, Fm​(x)Fm−1​(x)β^​m​x(j^​m​),在 m M m M mM 时停止 F M ( x ) F_M(x) FM​(x) 是线性回归函数的最终估计器。 Friedman 通过使用 ν ⋅ h ( ⋅ , θ ) \nu \cdot h(\cdot, \theta) ν⋅h(⋅,θ)其中 0 ν ≤ 1 0 \nu \leq 1 0ν≤1 缩减基础学习器来引入 L2Boosting 的收缩。经验表明只要 ν \nu ν 较小步长 ν \nu ν 的选择并不重要我们通常使用 ν 0.1 \nu 0.1 ν0.1 。 文献中将 L2Boosting 的一个相关版本称为 e-L2Boosting e-L2Boosting 将所有预测变量归一化到相同的尺度并令 β ^ m \hat{\beta}_m β^​m​ 具有固定的“步长” ν 0 \nu 0 ν0但其符号取决于所选 X ( j ^ m ) X^{(\hat{j}_m)} X(j^​m​) 与当前残差向量 U U U 之间的相关性即 β ^ m ≡ ν ⋅ sign ( corr ( U , X ( j ^ m ) ) ) . (21) \hat{\beta}_m \equiv \nu \cdot \text{sign}(\text{corr}(U, X^{(\hat{j}_m)})). \tag{21} β^​m​≡ν⋅sign(corr(U,X(j^​m​))).(21) 当 m 2 m 2 m2 且 ν 1 \nu 1 ν1 时L2Boosting 已经由 Tukey 提出名为“twicing”。在参考文献中e-L2Boosting 也称为前向逐步拟合。研究表明它与 L1 惩罚最小二乘法 Lasso 相连并且通常具有 Lasso 的稀疏性。实际上Lasso 和 e-L2Boosting 通过 Blasso 算法相连该算法包含 e-L2Boosting 步骤前向步骤和适当选择的后向步骤其中预测变量可以从拟合函数中移除。 除了 L1 惩罚最小二乘法外还可以采用 L0 惩罚最小二乘法尽管后者在计算上不便且难以求解。这与 SparseBoosting 相关后者使用 AIC、BIC 或 gMDL 等信息准则而文献推荐 gMDL 以实现整体预测性能和稀疏性。最近Zhang 结合前向和后向步骤来最小化 L0 惩罚最小二乘法而 Friedman 和 Popescu 设计了一种梯度方向正则化算法该算法不一定来自显式的惩罚函数。 分类中的边际观点MARGIN POINT Schapire 等人[9] 提出了通过提升边际分布来解释 AdaBoost 有效性的新方法。值得注意的是边际margin是支持向量机方法和理论中的一个关键概念。这项工作引发了机器学习社区对 AdaBoost 的一系列推广通过最大化不同版本的边际例如产生了 LPBoost[32]、SoftBoost[33] 和熵正则化的 LPBoost[14]。 9. Schapire R, Freund Y, Bartlett P, Lee W. Boosting the margin: a new explanation for the effectiveness of voting methods. Ann Stat 1998, 26:1651–1686. 32. Demiriz A, Bennett K, Shawe-Taylor J. Linear programming boosting via column generation. JMach Learn Res 2002, 46:225–254 33. Warmuth M, Glocer K, R ̈ atsch G. (2008a), Boosting algorithms for maximizing the soft margin. In: Platt J, Koller D, Singer Y, Roweis S, eds. Advances in Neural Information Processing Systems 20. Boston: MIT Press; 2000, 1585–1592. 14. Warmuth M, Glocer K, Vishwanathan S. Entropy regularized LP Boost. In: Freund Y, Gy ̈ orfi L, Tur ́ an G, Zeugmann T, eds. Advanced Lectures on Machine Learning, Lecture Notes in Computer Science. NewYork: Springer; 2008b, 256–271. 在这些基于边际的算法中有些算法被认为是“修正性的”因为它们仅根据前一次迭代的结果进行重新加权而另一些算法是“完全修正性的”因为它们在重新加权时考虑了所有先前迭代的结果。 一些研究使用 C4.5 或径向基函数作为基础学习器表明这些基于边际的方法在分类准确性方面与 AdaBoost 相似或略有提高也可能比 LogitBoost 更好。在参考文献[14] 的计算速度比较研究中发现 LPBoost 是最快的熵正则化entropy regularized的 LPBoost 略慢而 SoftBoost 最慢。这些算法依赖于凸优化中的原对偶公式其中已知 SoftBoost 和熵正则化的 LPBoost 有一些收敛速度分析。 实际应用中的 Boosting 问题 目前我们所知道的 Boosting 方法包含三个要素损失函数、基础学习器和停止规则。要在实际中应用 Boosting需要对这三个组件进行选择。类似于应用任何其他方法这些选择通常是主观的取决于实践者的熟悉程度、软件的可用性或计算实施的时间。然而根据我们和他人在各种问题中使用 Boosting 的经验以下是一些关于这些选择的经验法则建议。 损失函数 在分类中AdaBoost 和 LogitBoost 是最受欢迎的损失函数选择其中 LogitBoost 的表现略好于 AdaBoost。 在基于边际margin-based的 AdaBoost 变形中LPBoost 似乎是一个不错的选择[14]。 Warmuth M, Glocer K, Vishwanathan S. Entropy regularized LP Boost. In: Freund Y, Gy ̈ orfi L, Tur ́ an G, Zeugmann T, eds. Advanced Lectures on Machine Learning, Lecture Notes in Computer Science. NewYork: Springer; 2008b, 256–271. 在回归中L2Boosting 和其收缩版本 e-L2Boosting 经常被使用。可以说更稳健的损失函数和基础程序应该被使用[34]但在实践中它们并不常见可能是由于可用软件的原因。 基础学习器 从高层次来看关于基础学习器选择的传统智慧是应该使用“弱”学习器或在复杂性complexity方面简单的程序。这使得 Boosting 方法能够通过迭代拟合过程自适应地建立起适合特定问题的 Boosting 复杂性complexity。 例如在 L2Boosting 中如果从强学习器如投影追逐projection pursuit开始即使在第二步 Boosting 也无法纠正早期迭代的过拟合。 在分类中使用 BoostingAdaBoost 或其推广的最常用基学习器是 CART 或 C4.5即基于树的分类器。在许多问题中使用了树桩stumps稍强一些的学习器是具有适中节点数的树例如八节点树。 在回归中使用小步长的坐标下降版本 L2Boosting 和 e-L2Boosting 已经变得流行用于高维线性和加性建模additive modeling。 提前停止规则 如果目标是预测通常选择在测试集上表现或交叉验证作为提前停止规则。 如果样本量相对于拟合复杂度较大单个测试集通常就足够了。相反如果样本量相对于拟合复杂度较小单个测试集的想法就不准确应该使用交叉验证。 然而交叉验证的预测误差具有很大的方差因此可能不可靠。基于模型选择标准如 AIC或 AICc、BIC 或 gMDL 的一些替代方法存在。其想法是使用一个可能有偏的估计预测误差其方差比交叉验证误差更小。 此外与交叉验证相比计算成本可能减少很多倍因此对于非常大的数据集由于计算节省这些基于模型的预测误差估计也很理想。 R 中的软件 R 包 mboost 提供了许多具体版本的梯度下降 Boosting 算法包括停止规则的选择。此外mboost 允许使用者特定的损失函数 L 进行 Boosting 拟合。参考文献[35] 提供了关于 Boosting 的综述包括使用 mboost 的示例。 B ̈ uhlmann P, Hothorn T. Boosting algorithms: regularization, prediction and model fitting (with discussion). Stat Sci 2007, 22:477–505
http://www.dnsts.com.cn/news/57683.html

相关文章:

  • 做微商加入什么移动电商网站聚名网域名备案
  • 外贸网站推广技巧视频链接制作
  • 网站建设项目计划书苏州好的网站公司名称
  • 网站设计命名规范seo tdk
  • 云南做网站报价网站开发公司 广告词
  • 怎么下载建设银行网站什么是erp企业管理系统
  • 最好的小型 网站开发系统合肥网站建设黄页
  • 建设部考试网站用网站
  • 深圳做企业网站多少钱先做网站主页还是先上架宝贝
  • 自贡普通网站建设费用移动微网站建设
  • 黄浦区网站建设互联网招聘网站排名
  • 西安网站制作西安搜推宝黄山旅游官方平台
  • 常州seo建站江门网站开发公司
  • 东莞中小型网站建设呼和浩特网络推广公司
  • 做网站 源码树莓派可以做网站的服务器吗
  • 微信公众号搭建网站做装修效果图的网站有哪些软件下载
  • 汉口网站建设公司顺丰电子商务网站建设
  • 备案做电影网站营销网站的优势有哪些
  • 青海移动网站建设常州网站建设优质商家
  • 设计素材类网站开发策划书网站搭建好之后提示网页走丢了
  • 临沂网站制作哪家好制作淘宝网页网站
  • 响应式网站设计图怎么做提升学历有哪几种途径
  • 合肥网站建设信息描述网页设计流程
  • 城乡建设学校官方网站如何建设一个网站站
  • 学院网站建设管理制度网站建设为什么必须有服务器
  • 做网站公司商丘邢台做网站推广找谁
  • 国内永久免费的建站新网站如何做百度百科
  • 免费的开发网站建设软件项目管理工作内容
  • 网站建设团队技术介绍安徽制作网站专业公司
  • 网站死链对网站影响华夏名网网站管理助手