怎么接网站来做,搜索自定义关键词优化,大网站开发,wordpress 模板加密随着机器学习的发展#xff0c;越来越多SCI文章都使用了更多有趣、高效的统计方法来进行分析#xff0c;LASSO回归就是其中之一。很多小伙伴听说过LASSO#xff0c;但是对于LASSO是什么#xff0c;有什么用#xff0c;怎么才能实现#xff0c;大家可能一头雾水。今天的文…随着机器学习的发展越来越多SCI文章都使用了更多有趣、高效的统计方法来进行分析LASSO回归就是其中之一。很多小伙伴听说过LASSO但是对于LASSO是什么有什么用怎么才能实现大家可能一头雾水。今天的文章就带大家认识“神秘的LASSO”。
1.什么是LASSO
LASSO全称Least absolute shrinkage and selection operator是一种数据挖掘方法即在常用的多元线性回归中添加惩罚函数不断压缩系数从而达到精简模型的目的以避免共线性和过拟合。当系数为0时同时达到筛选变量的效果。以下是一个不严谨的示意图 所以LASSO回归高效解决了筛选变量的难题区别于传统的逐步回归stepwise前进、后退变量筛选方法LASSO回归可以利用较少样本量高效筛选较多变量。比如在基因组学、影像学、以及其他小样本分析中LASSO回归都可以派上大用场。
2.LASSO在SCI文章中的应用
说了这么多下面我们通过一篇4.6分的SCI文章了解LASSO回归的实际应用吧。 文章标题A prognostic nomogram based on LASSO Cox regression in patients with alpha-fetoprotein-negative hepatocellular carcinoma AFP-NHCC following non-surgical therapy 翻译成中文基于LASSO cox回归的非手术治疗后甲胎蛋白阴性肝癌患者的预测列线图。
本研究的目的是应用一种新的方法来建立和验证一种新的预测AFP-NHCC患者预测的模型。下面我们用PICOS原则来拆解文章
P 558例AFP阴性的肝癌患者。
I C 患者基线或治疗相关的指标。
O 从诊断为肝癌到最后一次随访或死亡的时间。
S 队列研究生存分析类型文章。
文章的主要结论是基于LASSO Cox回归的nomogram对于非手术治疗肝癌患者的预后预测更加准确和有用。该模型可以帮助肝癌患者在非手术治疗后进行个性化的预后评估。
接下来看文章相关图表下面就是LASSO模型会输出的两张图这两张图展示了LASSO是如何工作的。 图A23个危险因素的LASSO系数路径图。图B交叉验证曲线。
3.LASSO回归结果的解读
先看A图回归系数路径图。该文章中纳入了23个变量便有23条不同颜色的线。每条线上都有变量编号。即每一条曲线代表了每一个自变量系数的变化轨迹纵坐标是系数的值下横坐标是log(λ)上横坐标是此时模型中非零系数的个数。 我们可以看到随着参数log λ增大回归系数即纵坐标值不断收敛最终收敛成0。例如最上面那条代表的自变量12在λ值很大时就有非零的系数然后随着λ值变大不断变小。
图B是LASSO回归的交叉验证曲线。 X轴是惩罚系数的对数 log λY轴是似然偏差Y轴越小说明方程的拟合效果越好。最上面的数字则为不同λ时方程剩下的变量数。图上打了黄色和绿色标签的两条虚线代表两个特殊的lambdaλ值。
左边虚线为λ min意思是偏差最小时的λ 代表在该lambda取值下模型拟合效果最高。变量数是16相比λ-se保留下来的变量更多。
右边虚线为λ-se意思是最小λ右侧的1个标准误。在该λ取值下构建模型的拟合效果也很好同时纳入方程的个数更少模型更简单。因此临床上一般会选择右侧的λ1-se作为最终方程筛选标准。
从上图可以看到本方程λ-se对应的变量数量是5所以最终纳入了5个变量进入方程。至于是哪5个在用软件具体分析的时候会有展示系数不为0的就是最终纳入的变量下图为示意图不是本文结果 使用这5个变量就可以正常纳入回归方程进行数据分析了比如本文的预测模型nomogram就是使用筛选出来的5个变量进行的分析。 除此之外文章作者还使用传统变量筛选法也做了一个COX分析同时比较传统模式和LASSO回归挑选出来变量的AUC的区别证明了在验证模型中LASSO回归的效果确实要优于传统方法从侧面也验证了LASSO回归的高效之处。
4.总结
好了以上就是关于LASSO回归的定义、作用以及结果解读希望能够让大家对LASSO还有一个宏观的认识。关于怎么使用R软件快速做出一个LASSO回归如果大家感兴趣可以动动小手分享本文本文阅读量超过3000我们就再开一期教程手把手带大家做出LASSO回归
易侕科研是一个专注于临床研究设计、统计分析、数据库搭建的团队关注我们查看更多科研干货文章。