为什么做域名跳转网站样式不见了,wordpress 反广告插件,网页制作与设计课本,商城网站互动性文章目录 类别区分变量与概念逻辑回归Sigmoid函数公式决策边逻辑损失函数和代价函数逻辑回归的梯度下降泛化过拟合的解决方案正则化 类别区分
变量与概念
决策边置信度阈值threshold过拟合欠拟合正则化高偏差lambda#xff08;λ#xff09;
线性回归受个别极端值影响λ
线性回归受个别极端值影响不适合用于分类
逻辑回归 输出值介于0,1 解决输出标签判断真值 用于回归和分类
Sigmoid函数 图注z越大函数g(z)值越趋近于1z为负数越小则函数g(z)值越趋近于零。 公式 f w ⃗ , b g ( w ⃗ ∗ x ⃗ b ) 1 1 e − ( w ⃗ ∗ x ⃗ b ) f_{\vec{w},b}g(\vec{w}*\vec{x}b)\dfrac{1}{1e^{-(\vec{w}*\vec{x}b)}} fw ,bg(w ∗x b)1e−(w ∗x b)1 P ( y 0 ) P ( y 1 ) 1 P(y0)P(y1)1 P(y0)P(y1)1
一般写法 f w ⃗ , b ( x ⃗ ) P ( y 1 ∣ x ⃗ ; w ⃗ , b ⃗ ) f_{\vec{w},b}(\vec x)P(y1|\vec x;\vec w,\vec b) fw ,b(x )P(y1∣x ;w ,b )
含义w,b为影响因子的时候选中x行向量时y1的概率是多少。
决策边 逻辑损失函数和代价函数 L ( f w ⃗ , b ( x ⃗ ( i ) ) , y ( i ) ) − y ( i ) l o g ( f w ⃗ , b ( x ( i ) ) ) − ( 1 − y ( i ) ) l o g ( 1 − f w ⃗ , b ( x ⃗ ( i ) ) ) L(f_{\vec w,b}(\vec x^{(i)}),y^{(i)})-y^{(i)}log(f_{\vec w,b}(x^{(i)}))-(1-y^{(i)})log(1-f_{\vec w,b}(\vec x^{(i)})) L(fw ,b(x (i)),y(i))−y(i)log(fw ,b(x(i)))−(1−y(i))log(1−fw ,b(x (i)))
分取值写则如下图 负的log函数取零到一的部分。如上图。 平方误差代价函数不适用原因会出现多个局部最小值。
简化的代价函数为 J ( w ⃗ , b ) − 1 m ∑ i 1 m [ L ( f w ⃗ , b ( x ⃗ ( i ) ) , y ( i ) ] J(\vec w, b)-\dfrac{1}{m}\sum\limits_{i1}^m[L(f_{\vec w,b}(\vec x^{(i)}),y^{(i)}] J(w ,b)−m1i1∑m[L(fw ,b(x (i)),y(i)] 它由极大似然估计法推出。 凸函数原因凸优化学习
逻辑回归的梯度下降
重复地更新w和b令其值为旧值-学习率 α ∗ α * α∗ 偏导数项
泛化
若一个模型能从从未见过的数据中做出准确的预测我们说它能够从训练集泛化到测试集。我们的目标是构建一个泛化精度尽可能高的模型
一个模型不能太过特殊以至于只能用于一些数据也不能过于宽泛难以拟合数据。 过拟合的解决方案
收集更多数据但数据收集能力可能有上限。观察是否可以用更少特征应选用最相关特征但有些被忽略的特征可能实际上有用。有些算法可以自动选择合适的特征。正则化w1到wn可以缩小以适应训练集不推荐缩小b
正则化
一种惩罚如果某一个w的增大使代价函数J增大那它实际应该减小。 J ( w ⃗ , b ) 1 2 m [ ∑ i 1 m ( f w ⃗ , b ( x ⃗ ( i ) ) − y ( i ) ) 2 λ 2 m ∑ j 1 n w j 2 λ 2 m b 2 ] ( λ 0 ) J(\vec w, b)\dfrac{1}{2m}[\sum\limits_{i1}^m(f_{\vec w, b}(\vec x^{(i)})-y^{(i)})^2\dfrac{λ}{2m}\sum\limits_{j1}^nw_j^2\dfrac{λ}{2m}b^2](λ0) J(w ,b)2m1[i1∑m(fw ,b(x (i))−y(i))22mλj1∑nwj22mλb2](λ0)
选择合适的λ以避免过拟合和欠拟合。