当前位置: 首页 > news >正文

网站子网页设计信息流广告代运营

网站子网页设计,信息流广告代运营,国内永久免费crm听说,哈尔滨刚刚发生的大事件有时#xff0c;根据测试集的精度衡量#xff0c;模型表现得非常出色。 但是当数据分布突然改变时#xff0c;模型在部署中会出现灾难性的失败。 有时模型的部署本身就是扰乱数据分布的催化剂。 举一个有点荒谬却可能真实存在的例子。 假设我们训练了一个贷款申请人违约风险… 有时根据测试集的精度衡量模型表现得非常出色。 但是当数据分布突然改变时模型在部署中会出现灾难性的失败。 有时模型的部署本身就是扰乱数据分布的催化剂。 举一个有点荒谬却可能真实存在的例子。 假设我们训练了一个贷款申请人违约风险模型用来预测谁将偿还贷款或违约。 这个模型发现申请人的鞋子与违约风险相关穿牛津鞋申请人会偿还穿运动鞋申请人会违约。 此后这个模型可能倾向于向所有穿着牛津鞋的申请人发放贷款并拒绝所有穿着运动鞋的申请人。 本章会揭露揭示一些常见的问题 1 分布偏移的类型 1.1协变量偏移 指的是训练数据和测试数据的输入分布不同但条件分布 P ( y ∣ x ) P(y∣x) P(y∣x) 保持不变即输入的分布可能随时间而改变 但标签函数即条件分布 没有改变。 以区分猫狗为例下面是训练集用的图像 下面是测试集用的图像即对下面的图像进行分类 训练集由真实照片组成而测试集只包含卡通图片。 假设在一个与测试集的特征有着本质不同的数据集上进行训练 如果没有方法来适应新的领域可能会有麻烦。 1.2 标签偏移 指的是训练数据和测试数据的标签分布不同但条件分布 P ( x ∣ y ) P(x∣y) P(x∣y)保持不变。即标签的边际分布发生了变化而给定标签的输入特征分布保持不变。 以开发一个疾病诊断模型为例 在 A 医院收集了很多患者的诊断数据进行模型训练可能因为 A 医院专长于某种疾病该疾病的比例在数据中非常高。你在 B 医院测试模型但是B医院的患者数据标签分布与A医院不同可能该疾病的患者比例较低由于训练集和测试集的标签分布不同模型可能更倾向于预测该病 1.3 概念偏移 指的是输入数据与标签之间的关系发生了变化即条件分布 P ( y ∣ x ) P(y∣x) P(y∣x) 发生变化。这种变化通常出现在模型部署后的实际应用中环境、用户行为、市场趋势等随时间改变导致原有模型不再准确。 以金融欺诈检测为例 训练阶段模型学到了根据历史交易特征如金额、时间、地点来预测是否是欺诈行为。部署后欺诈者的行为模式改变使用新的手段进行欺诈因此同样的交易特征可能不再代表欺诈行为。 2 分布偏移纠正 2.1 经验风险和实际风险 经验风险指模型在给定训练数据集上所犯错误的平均值 经验风险empirical risk是为了近似 真实风险true risk 整个训练数据上的平均损失即从其真实分布 p ( x , y ) p(x,y) p(x,y)中抽取的所有数据的总体损失的期望值 2.2 协变量偏移纠正 我们可以通过在真实风险的计算中使用以下简单的恒等式来进行纠正 ∫ ∫ l ( f ( x ) , y ) p ( y ∣ x ) p ( x ) d x d y ∫ ∫ l ( f ( x ) , y ) q ( y ∣ x ) q ( x ) p ( x ) q ( x ) d x d y . \begin{aligned} \int\int l(f(\mathbf{x}), y) p(y \mid \mathbf{x})p(\mathbf{x}) \;d\mathbf{x}dy \int\int l(f(\mathbf{x}), y) q(y \mid \mathbf{x})q(\mathbf{x})\frac{p(\mathbf{x})}{q(\mathbf{x})} \;d\mathbf{x}dy. \end{aligned} ∫∫l(f(x),y)p(y∣x)p(x)dxdy∫∫l(f(x),y)q(y∣x)q(x)q(x)p(x)​dxdy.​ 即根据数据来自正确分布与来自错误分布的概率之比 来重新衡量每个数据样本的权重 β i d e f p ( x i ) q ( x i ) . \beta_i \stackrel{\mathrm{def}}{} \frac{p(\mathbf{x}_i)}{q(\mathbf{x}_i)}. βi​defq(xi​)p(xi​)​. 将权重 β i \beta_{i} βi​代入到每个数据样本 ( x i , y i ) (\mathbf{x}_i, y_i) (xi​,yi​)中 我们可以使用”加权经验风险最小化“来训练模型 m i n i m i z e f 1 n ∑ i 1 n β i l ( f ( x i ) , y i ) . \mathop{\mathrm{minimize}}_f \frac{1}{n} \sum_{i1}^n \beta_i l(f(\mathbf{x}_i), y_i). minimizef​n1​i1∑n​βi​l(f(xi​),yi​). 由于不知道这个比率我们需要估计它这里使用对数几率回归logistic regression 现在我们来看一下完整的协变量偏移纠正算法。 假设我们有一个训练集 { ( x 1 , y 1 ) , … , ( x n , y n ) } \{(\mathbf{x}_1, y_1), \ldots, (\mathbf{x}_n, y_n)\} {(x1​,y1​),…,(xn​,yn​)}和一个未标记的测试集 { u 1 , … , u m } \{\mathbf{u}_1, \ldots, \mathbf{u}_m\} {u1​,…,um​}.。对于协变量偏移我们假设 1 ≤ i ≤ n 1 \leq i \leq n 1≤i≤n的 x i x_{i} xi​来自某个源分布 u i \mathbf{u}_i ui​来自目标分布。 以下是纠正协变量偏移的典型算法 2.3 标签偏移纠正 重要性加权是一种常用的技术用于调整模型的训练过程使其更好地适应测试数据的标签分布。通过为训练数据中的每个样本分配权重使得样本的影响程度与其在测试集中的重要性相匹配。 步骤 1、估计训练集和测试集的标签分布 ​ P t r a i n ( y ) P_{train}(y) Ptrain​(y)训练集中的标签分布​ P t e s t ( y ) P_{test}(y) Ptest​(y)测试集中的标签分布 2、计算权重 w e i g h t ( y ) P t e s t ( y ) P t r a i n ( y ) weight(y)\frac{P_{test}(y)}{P_{train}(y)} weight(y)Ptrain​(y)Ptest​(y)​ 3、在训练过程中对每个样本的损失进行加权 w e i g h t e d l o s s ∑ i w e i g h t ( y i ) ⋅ L ( f ( x i , θ ) , y i ) weighted loss \sum_{i} weight(y_{i}) ·L(f(x_{i},\theta),y_{i}) weightedlossi∑​weight(yi​)⋅L(f(xi​,θ),yi​) 通过这种方式模型在训练时会更重视那些在测试集中频繁出现的标签。 2.4 概念偏移纠正 使用新数据更新现有的网络权重而不是从头开始训练。 3 学习问题的分类法 有了如何处理分布变化的知识我们现在可以考虑机器学习问题形式化的其他方面。 3.1 批量学习 在批量学习batch learning中我们可以访问一组训练特征和标签 { ( x 1 , y 1 ) , … , ( x n , y n ) } \{(\mathbf{x}_1, y_1), \ldots, (\mathbf{x}_n, y_n)\} {(x1​,y1​),…,(xn​,yn​)} 我们使用这些特性和标签训练 f ( x ) f(\mathbf{x}) f(x)。 然后我们部署此模型来对来自同一分布的新数据 ( x , y ) (\mathbf{x}, y) (x,y)进行评分。 例如我们可以根据猫和狗的大量图片训练猫检测器。 一旦我们训练了它我们就把它作为智能猫门计算视觉系统的一部分来控制只允许猫进入。 然后这个系统会被安装在客户家中基本再也不会更新。 3.2 在线学习 在线学习是一种逐步更新模型的方法。在这种学习模式下模型在接收到新数据后会立即进行更新而不需要在训练结束后一次性处理所有数据。与传统的批量学习Batch Learning相对后者通常在收集完所有数据后进行训练。 例如在实时推荐系统中在用户行为不断变化的场景中在线学习可以根据最新的用户活动实时调整推荐算法。 3.3 老虎机 老虎机问题是在线学习中的一个经典特例旨在解决探索与利用之间的权衡。该问题可以通过“老虎机”来形象化想象有多个老虎机每个老虎机都有不同的中奖概率。玩家的目标是在有限的尝试次数内最大化其总奖励。 例如在线广告投放即在多个广告选项中选择以最大化点击率。 3.4 控制 3.5 强化学习
http://www.dnsts.com.cn/news/49040.html

相关文章:

  • c 可以做网站吗邯郸商城网站建站
  • 湖南宁乡建设局网站做网络营销推广
  • 社交网站推广怎么做网站做游戏活动
  • 网站群建设指导意见做电影网站会违法吗
  • 建网站莱阳哪家强?数据库用于网站建设哪个好
  • 做封面怎么把网站加上去织梦做的网站_别人提交给我留的言我去哪里看
  • 个人网站可以收费吗注册网站域名要钱吗
  • 做网站前怎么写文档wordpress让浏览显示K单位
  • 重庆市城市建设档案馆官方网站班组建设展板哪个网站有
  • 少数民族网站建设海丰县网站设计
  • 自有服务器 建网站学校网页设计模板html
  • 电子商务网站建设的参考文献诸城网站建设
  • 东莞网站建设周期域名企业备案对网站的好处
  • 龙华新区做网站浙江微信网站建设报价
  • 云空间网站开发php 搭建手机网站
  • 公司网站建设团队网站开发的分录怎么做
  • 息壤空间怎么上传网站1.简述网站建设的步骤
  • 旅游电子商务网站的建设网站连接微信
  • 太原网站如何制作wordpress免费建站教程
  • 怎样提升企业网站的访问检测网站是否被墙
  • c#+网站开发实例wordpress二级分类列表
  • 门户网站建设的特点wordpress悬浮目录
  • 免费制作网页网站辽阳网站网站建设
  • 商丘专业做网站设计制作小船
  • ps 做ui比较好的网站注册公司要求什么条件
  • 郑州网站建设xinsu360网店运营在哪里学比较好些
  • 网站制作视频wap网
  • 高端网站开发有哪些wordpress忘记用户名密码破解
  • 公司创建一个网站需要多少钱一个电商网站建设需要哪些技术
  • 2核4g做网站工程认证网站的建设