北京网站定制流程,店铺引流的30种方法,长治哪里能找到做网站的技术员,佳城建站 网站目录
一、简介
二、逻辑回归的原理
1、线性回归部分
2、逻辑函数#xff08;Sigmoid函数#xff09;
3、分类决策 4、转换为概率的形式使用似然函数求解
5、对数似然函数
编辑
6、转换为梯度下降任务
三、逻辑回归拓展知识
1、数据标准化
#xff08;1#xf…目录
一、简介
二、逻辑回归的原理
1、线性回归部分
2、逻辑函数Sigmoid函数
3、分类决策 4、转换为概率的形式使用似然函数求解
5、对数似然函数
编辑
6、转换为梯度下降任务
三、逻辑回归拓展知识
1、数据标准化
1、0~1标准化
2、Z标准化
2、 交叉验证
K折交叉验证
3、过拟合、欠拟合
1、过拟合
2、欠拟合
4、正则化惩罚
5、混淆矩阵
四、总结 一、简介
机器学习中的逻辑回归是一种广泛使用的分类算法尤其适用于二分类问题也可以扩展到多分类问题。它的核心思想是通过线性回归模型预测概率然后使用逻辑函数如 Sigmoid 函数将概率映射到分类标签。
二、逻辑回归的原理 逻辑回归是在线性回归的基础上使得线性函数映射Sigmoid函数上从而达到分类的效果。 1、线性回归部分 使用线性方程计算输入特征的加权和 其中 w0,w1,…,wnw0,w1,…,wn 是模型参数权重。 x1,x2,…,xnx1,x2,…,xn 是输入特征。
2、逻辑函数Sigmoid函数 将线性回归的结果 zz 映射到 [0, 1] 之间的概率值 其中 P(y1∣x)P(y1∣x) 是样本属于类别 1 的概率。 Sigmoid 函数的输出值越接近 1表示样本属于类别 1 的概率越大。
3、分类决策
根据概率值进行预测 整合 4、转换为概率的形式使用似然函数求解 5、对数似然函数 6、转换为梯度下降任务 求偏导 参数更新 三、逻辑回归拓展知识
1、数据标准化
1、0~1标准化 也叫离差标准化是对原始数据的线性变换使结果映射到[0,1]区间。 min(x)、max(x)分别代表样本的最小值和最大值。
2、Z标准化 这种方法基于原始数据的均值(mean)和标准差(stand ard deviation)进行数据的标准化。将A的原始值x使用z- score标准化到x。 s为样本的标准差 。
2、 交叉验证 K折交叉验证 3、过拟合、欠拟合
1、过拟合 定义模型在训练集上表现很好但在测试集上表现较差。 原因 模型过于复杂例如参数过多。 训练数据过少或噪声过多。 解决方法 增加训练数据。 降低模型复杂度 减少特征、使用正则化
2、欠拟合 定义模型在训练集和测试集上表现都不好。 原因 模型过于简单例如特征不足。 训练时间不足。 解决方法 增加特征或使用更复杂的模型。 增加训练时间。
4、正则化惩罚 正则化是一种防止过拟合的技术通过在损失函数中添加惩罚项来限制模型参数的大小。 损失函数 正则化惩罚 正则化惩罚种类 5、混淆矩阵 混淆矩阵Confusion Matrix是用于评估分类模型性能的一种表格特别适用于二分类和多分类问题。它展示了模型预测结果与真实标签之间的对比情况帮助我们直观地分析分类模型的准确性、错误类型等。 对于二分类 真正例 (True Positive, TP)模型正确预测为正类的样本。 假正例 (False Positive, FP)模型错误预测为正类的样本实际为负类。 假反例 (False Negative, FN)模型错误预测为负类的样本实际为正类。 真反例 (True Negative, TN)模型正确预测为负类的样本。 计算公式 召回率Recall是分类模型评估中的一个重要指标主要用于衡量模型在识别正类样本即实际为正类的样本时的表现。它反映了模型将正类样本正确分类的能力。特异度Specificity是分类模型评估中的一个重要指标主要用于衡量模型在识别负类样本即实际为负类的样本时的表现。它反映了模型将负类样本正确分类的能力。F1 分数F1 Score是分类模型评估中的一个重要指标用于综合衡量模型的精确率Precision和召回率Recall。它是精确率和召回率的调和平均值旨在平衡两者特别适用于正负样本分布不均衡的场景。
四、总结
逻辑回归是一种简单但强大的分类算法适用于线性可分或近似线性可分的数据。通过标准化、正则化和交叉验证等技术可以进一步提升其性能。尽管逻辑回归对非线性数据的拟合能力有限但在许多实际应用中仍然表现出色。