怎么做网站专题,姜堰区网站建设,工商局网上办事大厅,上海制作网站公司网站1.线性回归#xff08;linear regression#xff09; 是利用回归方程#xff08;函数#xff09;对一个或者多个自变量#xff08;特征值#xff09;和因变量#xff08;目标值#xff09;之间关系进行建模的一种分析方法。 线性模型#xff1a; 1.线性关系#xff1…1.线性回归linear regression 是利用回归方程函数对一个或者多个自变量特征值和因变量目标值之间关系进行建模的一种分析方法。 线性模型 1.线性关系y w1x1 w2x2 … wnxn b b为偏置 2.非线性关系 线性关系一定是线性模型线性模型不一定是线性关系
损失函数/cost/成本函数/目标函数 最小二乘法 优化损失 正规方程 直接求解 梯度下降 试错改进
波士顿房价预测在sklearn1.2中已删除http://lib.stat.cmu.edu/datasets/boston 1.获取数据集 2.划分数据集 3.特征工程–标准化 4.预估器流程 fit() coef_(权重系数) intercept_(偏置) 5.模型评估
2.欠拟合和过拟合 欠拟合学习到的数据特征过少 解决方法增加数据的特征数量
过拟合原始特征过多存在一些嘈杂特征模型过于复杂为了兼顾各个测试数据点 解决方法正则化 L1 损失函数 λ惩罚项 只是绝对值 LASSO L2 更常用 损失函数 λ惩罚项 数值的平方 Ridge - 岭回归
3.逻辑回归的改进-岭回归 带有L2正则化的线性回归-岭回归 逻辑回归的应用场景 广告点击率 是否会被点击/是否为垃圾邮件 是否患病/是否为金融诈骗/ 是否为虚假账号 原理线性回归的输出就是逻辑回归的输入 激活函数 sigmoid函数 [0,1]区间中的一个概率值默认为0.5的阈值 1/(1 e^(-x)) 假设函数/线性模型 1/(1 e^(-(w1x1 w2x2 … wnxn b))) 损失函数 (y_predict - y_true)平方和/总数 逻辑回归的真实值/预测值 是否属于某个类别 优化损失
4.分类的评估方法 精确率与召回率 1.混淆矩阵 TP True Possitive FN False Negative 2.精确率(Precision)与召回率(Recall) 精确率 召回率 查的全不全 3.F1-score 模型的稳健性 总共有100人如果99个样本是癌症1个样本非癌症 --样本不均衡
ROC曲线与AUC指标TPR与FPRTPR TP/(TP FN) - 召回率所有真是类别为1的样本中预测类别为1的比例FPR FP / (FP TN)所有真是类别为0的样本中预测类别为1的比例
AUCArea Under Curve:被定义为ROC曲线下与坐标轴围成的面积显然这个面积的数值不会大于1。
又由于ROC曲线一般都处于yx这条直线的上方所以AUC的取值范围在0.5和1之间。AUC越接近1.0
检测方法真实性越高;等于0.5时则真实性最低无应用价值
1.AUC只能用来评价二分类
2.AUC非常适合评价样本不均衡中的分类器性能 5.模型保存与加载 joblib.dump(estimator, ‘my_ridge.pkl’) estimator joblib.load(‘my_ridge.pkl’)
6.无监督学习没有目标值 – K-means算法 聚类K-meansK均值聚类 降维PCA K-means原理一种基于划分的无监督聚类算法其核心思想是将数据集划分为k个簇使得每个数据点都属于最近的簇 并且簇的中心是所有数据点的平均值。 开发流程 降维之后的数据 1.预估器流程 2.看结果 3.模型评估 kmeans性能评估指标 轮廓系数 如果b_i a_i 趋近于1效果越好趋近于-1效果不好 轮廓系数的值介于[-1,1]之间 越趋近于1代表内聚度和分离度都相对较优 kmeans总结采用迭代式算法直观易懂并且非常实用 缺点容易收敛到局部最优解