当前位置: 首页 > news >正文

免费的求职简历模板网站哈巴河网站制作

免费的求职简历模板网站,哈巴河网站制作,免费合作加工厂,dede免费模板教育网站作者 | 通用搜索产品研发组 导读 本文简单介绍了百度搜索Push个性化的发展过程#xff0c;揭示了面临的困境和挑战#xff1a;如何筛选优质物料、如何对用户精准推荐等。我们实施了一系列策略方法进行突破#xff0c;提出核心的解决思路和切实可行的落地方案。提升了搜索DAU… 作者 | 通用搜索产品研发组 导读 本文简单介绍了百度搜索Push个性化的发展过程揭示了面临的困境和挑战如何筛选优质物料、如何对用户精准推荐等。我们实施了一系列策略方法进行突破提出核心的解决思路和切实可行的落地方案。提升了搜索DAU和点击率希望本文的内容能为相关从业者带来启发和借鉴价值。 全文5573字预计阅读时间14分钟。 01 背景 百度搜索一直以来都致力于为用户提供快速、准确的信息获取服务。而搜索Push是百度搜索的一种重要功能可以帮助用户快速获取他们所需的信息同时还可以主动触达用户。与传统信息流Push不同搜索Push通过query的形式推送给用户用户可以获取自己需要的信息。这种推送方式更加精准从而更好地满足自己的需求。用户可以通过搜索Push快速获取自己需要的信息从而更加频繁地使用百度搜索进而提升搜索DAU。 百度在Push方面也拥有着相当的规模和影响力。然而百度搜索Push在整体Push中的发送量、点击量UV占比较小搜索Push还有很大的增长空间需要采取高效的策略来提升点击率。从以下几个方面进行优化和提升 1.筛选优质物料目前搜索物料较为充裕需从海量的数据中筛选出能够通过审核、具有较高点击率ctr的物料。这需要建立一套完善的筛选机制从内容质量、用户需求、合规性等多个维度进行评估和筛选。 2.用户精准推荐精准触达在推荐系统中具有重要的作用可以提高用户体验满足用户的兴趣和需求。在Push推送中需要通过高效的策略算法精确找到合适的人群进行推送。这需要对用户画像、兴趣爱好、行为习惯等多方面进行深入分析和挖掘。 综上搜索Push作为一种便捷的信息获取服务不仅可以帮助用户快速获取自己需要的信息还可以主动触达用户业务目标是在不影响Push大盘的基础上扩大个性化搜索push影响面提升搜索的DAU。 02 整体方案设计 整体流程包括物料生产、搜Push策略以及与Push下发等环节。这些环节相互关联共同构成了整个流程。 1.物料生产是整个流程的关键我们通过人工审核、LLM大模型改写等方式筛选出优质的物料。 2.搜索push策略是整个流程的重要环节通过高效的模型算法找到与用户需求和兴趣相匹配的内容并进行精准推送。 3.push通路是整个流程中不可或缺的一环搭建一个高效的搜索push通路的可以帮助搜索更好地进行推广。 2.1 搜索push通路建设 搜索Push作为百度APP Push的重要来源需要建设稳定、高效的通路进行数据下发。需要从多个方面进行优化和改进包括离线匹配的高效性、策略匹配的准确性和物料的质量性等方面。只有这样才能更好地满足用户的需求和提高用户的使用体验。按照上述各方面的要求搜索Push的总体流程如下 在搜索Push场景下需要下发的数据由ID,ITEM对组成。在经过粗排、精排等逻辑处理后对各个通路来的物料进行打分。最终选取分数最高的物料进行下发。 面临现有机制的情况下搜索Push的挑战主要有两点第一需要有足够优质的物料。第二需要有足够精确的模型和策略将物料与用户的需求相匹配。 2.2 筛选优质物料 基于搜索物料池我们进行了两个版本的尝试第一版根据不同的策略规则从搜索物料池中挖掘出万级物料进行个性化推荐。第二版是基于后验的优质物料筛选方式。 在挖掘出优质物料之后运营同学可以对这些物料进行进一步的筛选和优化以确保其质量和效果。在这个过程中我们保证了物料的多样性和丰富性避免了重复和过度相似的内容。并尝试使用LLM大模型技术对物料摘要进行改写可以更好地适应搜索引擎的算法和用户的需求从而提高物料的点击率和转化率筛选后经过后验分析得出优质的物料进入精排模型详细设计如下 2.3 用户精准推荐模型算法优化 我们从初期的双塔模型到全连接模型再到升级模型特征、网络结构经过了几个版本的迭代升级并借助paddlepaddle机器学习平台完成了千亿级参数离散模型训练最后综合考虑pctr和用户uctr的bias在模型中引入deltaCTR策略。 2.3.1 提升模型准确性 准确性的核心在于通过对用户画像、兴趣爱好、行为信息等多方面进行深入分析和挖掘通过高效的模型算法找到与用户需求和兴趣相匹配的内容并进行精准推送提高推送效果和用户体验。在整个过程中特征非常重要我们对特征进行了迭代升级构建搜索push专有的画像和行为序列并引入交叉特征id类特征等AUC提升显著。列举了以下几个关键特征 1.itemid特征由于推送的文章均是有过点击行为的文章id类特征在训练样本中存在模型可以学习到细粒度的文章信息。 2.用户id特征用户id特征比较稀疏因此我们回溯了较长时间的样本保证模型可以更好拟合出的用户id特征 3.push场景画像和序列信息这些特征的加入使得模型能够更好地理解数据和用户行为从而进一步提升DAU 2.3.2 pctr校准 为什么要校准 由于正负样本不均衡在构造模型样本时对样本进行了负采样通常可以提升模型精度但是pctr值会发生变化与真实ctr差距扩大。建立deltaCTR模型时会用到pctr减uctr负采样带来的pctr值的变化会对最终结果产生影响因为需要校正。 校准公式 p c t r ( 校准后 ) c t r s / p c t r m ∗ p c t r pctr(校准后)ctr_s / pctr_m* pctr pctr(校准后)ctrs​/pctrm​∗pctr 其中 c t r s ctr_s ctrs​为模型训练样本中的 c t r ctr ctr p c t r a pctr_a pctra​为模型预测 p c t r pctr pctr打分的均值。 以上是简单的校准逻辑后续会进行迭代升级主要有以下几种尝试方法 方式一基于负样本采样率调整ctr 来源Facebook公开的论文《Practical Lessons from Predicting Clicks on Ads at Facebook》里面提到一种基于负采用率来进行ctr纠偏的计算公式 q p p ( 1 − p ) w q\frac{p}{p\frac{(1-p)}{w} } qpw(1−p)​p​其中p是预估值w是负采样的比例q是校准后的ctr值。 方式二保序回归 保序回归法目前是业界最常用的校准方法。常见的算法是保序回归平滑校准算法Smoothed Isotonic RegressionSIR。 保序回归法的整体思想就是不改变原有数据的pctr排序仅在原有pctr的排序上进行纠偏。最终纠偏出来的ctr数据分布的单调性不变AUC指标不变。 整体执行步骤如下 Step1—区间分桶 首先将pctr值从小到大进行排序然后按照区间分为K个桶。假设我们分为100个桶(0,0.01], (0.01,0.02], (0.02,0.03],…, (0.99,1]。这里我们认为精排模型给出pctr值是具有参考意义的同一个区间里的PV请求具有近似的真实点击率每一个区间可作为一个合理的校准维度分簇维度。然后实际应用时我们再统计每一个桶里的后验ctr值。比如今天线上一共有1000次预估的pctr落在了桶 (0.02,0.03]之间然后我们统计这1000个预估的后验CTR假设后验CTR为0.23%。关于每个桶里Pctr和Actr平均值的计算公式如下 第 i i i个桶的后验 C T R CTR CTR为 A C T R i Σ 点击 P V Σ 曝光 P V ACTRi \frac{\Sigma 点击PV}{\Sigma 曝光PV} ACTRiΣ曝光PVΣ点击PV​ 预估 c t r ctr ctr均值为 p c t r pctr pctr平均值 i Σ p c t r Σ 曝光 P V i \frac{\Sigma pctr}{\Sigma 曝光PV} iΣ曝光PVΣpctr​ Step2—桶间合并 如果说后验ctr的值超出了对应分桶的pctr取值区间怎么办假如原本分桶在(0.02,0.03]之间结果的后验ctr为0.35%这时已经进入到了下一个桶里了(0.03,0.04]。如果我们将原本pctr在(0.02,0.03]桶里面的值往下一个桶里的区间值进行校准这就破坏了原有桶之间的顺序保序回归的基本逻辑是不能破坏原pctr的顺序。此时我们需要把(0.02,0.03]和(0.03,0.04]桶进行合并得到新的桶0.02,0.04]再重新对落入两个桶里的数据进行后验ctr统计得到新桶里面的 actr和pctr平均值。我们以pctr为xactr为y轴最终得到一个如下图所示单调递增的散点图 Step3—桶间插值分段校准 我们需要基于上述散点图去构造一个校准函数输入x值以后就可以输出校准后的y值。如果直接拟合一个 y k x b y kx b ykxb函数最终预估的结果不够平滑。目前业界的标准做法都是构造分段校准函数。 如上图所示我们将两个桶之间坐标点连接起来然后去构造一个分段的 y k x b y kx b ykxb校准函数假设pctr一共分为了100个桶那么最终就构造100个分段校准函数这样既保证单调性又保证平滑地校准。已知两点坐标计算对应的 y k x b y kx b ykxb。 2.4 基于deltaCTR策略设计 通过对大量物料的后验ctr表现进行排序选取出表现最好的topK个物料。使用模型对物料打分对预测的pctr值进行校准以确保预测结果更加准确。然后建立deltaCTR策略即根据校正后的pctr值和用户uctr计算物料的deltaCTR即增量点击率。并根据pctr和deltaCTR两个队列找到最佳的参数组合从而制定出最佳的推送策略。最后我们需要选择合适的人群进行推送。在选择人群时我们还需要考虑受众的规模和受众的活跃度等因素。 综上所述通过物料的后验ctr表现选取出topK个物料通过模型对物料pctr打分后校准建立deltaCTR策略寻找最佳的参数选择合适的人群进行推送是提高推送效果的关键步骤。在实际操作中我们需要不断优化和调整这些步骤以确保推送效果的最大化。 2.4.1 兼顾收益和DAU最大 我们需要每天下发topK个物料。在k个候选物料确定的情况下需要精准地寻找目标人群进行下发。通常来说模型打分越高所带来的点击率就越高进而能够带来更高的DAU。因此按照pctr排序取topx可以保证带来更多的点击。同时由于用户本身存在自己的uctr因此我们需要考虑这个bias因素对模型pctr的影响。为了更准确地评估系统带来的收益我们可以按照模型预测点击率pctr减去用户点击率uctr得到deltaCTR然后按照deltaCTR排序取topy我们可以更准确地评估每个物料对系统带来的实际收益。 因此topx和topy这两个参数寻优非常重要。 2.4.3 deltaCTR参数寻优 在我们的策略中使用了两个重要的参数a和b进行优化。通过调整这两个参数我们得到了不同的topx和topy数据结论。当a和b的值不同时x和y的表现会有所不同。因此我们决定采用离线分析和在线实验相结合的方法以找到最佳的参数组合。 在离线分析阶段我们根据历史数据和理论推导选择了几个可能的a和b的组合。然后我们在线上实验中测试了这些组合的性能。通过不断调整x和y参数我们发现了一些表现优秀的参数组合。最后我们选择了一组最佳的参数组合进行全量。 这一组最佳的参数组合是通过大量的实验和数据分析得出。后续将不断优化我们的模型和参数以提高我们的整体性能和效果。 2.4.3.1 离线理论推导 在后验数据的基础上我们针对x和y进行优化旨在确保实验组和对照组的CTR保持一致同时实现点击量的最大化。这种优化方法可以通过调整x和y的参数使得实验组和对照组的点击率达到相等水平进而最大化整体点击量。在实施这种优化策略时需要注意数据采集和分析的准确性以及实验组和对照组的平衡性。具体步骤 1、计算模型预测的CTRpctr 2、 计算用户活跃度分群cluster_ctr和实际用户uctr 3、 处理不置信的uctr值 4、 计算deltaCTR 5、 对pctr和deltaCTR进行排序 将pctr和deltaCTR进行排序得到两个队列如下 队列1: s o r t D e l t a C T R s o r t ( d e l t a C T R ) sortDeltaCTRsort(deltaCTR) sortDeltaCTRsort(deltaCTR) 队列2: s o r t P c t r s o r t ( p c t r ) sortPctrsort(pctr) sortPctrsort(pctr) 6、 寻找最优x和y值 设置不同的 t o p x topx topx和 t o p y topy topy可以得到不同的 f ( x ) f(x) f(x)和 g ( y ) g(y) g(y)为了方便起见本文将x和y按照从0%到100%每10%作为一个分段进行取值分析。其中 f ( x ) s u m ( d e l t a C T R ) f(x)sum(deltaCTR) f(x)sum(deltaCTR)当 s o r t D e l t a C T R sortDeltaCTR sortDeltaCTR取 t o p x topx topx g ( y ) s u m ( d e l t a P C T R ) g(y)sum(deltaPCTR) g(y)sum(deltaPCTR)当 s o r t P c t r sortPctr sortPctr取 t o p y topy topy且 y y y的用户 i t e m p a i r itempair itempair对不在 x x x中 通过寻找 x x x和 y y y保证当 a ∗ f ( x ) b ∗ g ( y ) 0 a*f(x)b*g(y)0 a∗f(x)b∗g(y)0时 s u m ( p c t r ) sum(pctr) sum(pctr)最大。其中 a a a和 b b b是超参数。 伪代码如下 通过理论计算经过几组参数的选取在不同实验参数下得出不同的结论如下 2.4.3.2 离线分析和在线实验相结合 离线分析和在线实验是两种不同的数据分析方法各有其优缺点。离线分析通常在数据收集后进行可以处理大量数据但无法实时反映数据的变化。在线实验则可以实时监测数据的变化但通常缺乏理论支撑存在波动的影响。为了克服这两种方法的缺点可以采用离线分析和在线实验相结合的方法。在离线分析阶段可以对大量数据进行处理和分析以发现数据中的模式和趋势。然后可以将这些模式和趋势应用于在线实验中以实时监测数据的变化。最终我们选择三组比较好的x和y参数分别是 △注x1x3y1~y3均是线上真实数据不便于公开。 三组实验DAU均显著提升。其中xx1yy1ctr相比大盘提升最大xx3yy3DAU提升最大但ctr存在略微负向不显著。后续继续对xx3yy3进行优化通过模型迭代、pctr校准优化等提升整体ctr和DAU。 03 小结 本文主要介绍了百度搜索Push个性化方案的设计和落地过程。通过挖掘优质物料、迭代模型算法等步骤我们成功地提高了搜索Push的点击率和提升了搜索DAU。在模型算法迭代方面我们重点优化了模型准确性、pctr校准和基于deltaCTR策略设计。离线分析和在线实验相结合的方法帮助我们找到了最佳的参数组合进一步提高了整体效果。实验结果表明我们的方案在DAU和ctr提升方面均取得了显著成果。未来我们将继续优化模型和参数以实现更高的性能提升。 ——END—— 推荐阅读 数据交付变革研发到产运自助化的转型之路 百度搜索exgraph图执行引擎设计与实践 百度搜索金融构建高时效、高可用的分布式数据传输系统 “踩坑”经验分享Swift语言落地实践 移动端防截屏录屏技术在百度账户系统实践
http://www.dnsts.com.cn/news/168987.html

相关文章:

  • 建设视频网站链接百度云盘比较好的 网站统计系统 php源码
  • 咨询企业网站模板最近新闻头条最新消息
  • 超级网站建设预装wordpress云主机
  • 杭州市萧山区哪家做网站的公司好免费seo推广公司
  • 做网站卖掉新一代 网站备案
  • 网站界面需求怎么制作简历电子版
  • 南京网站公司哪家好网站建设死人接单
  • 做网站需要掌握什么软件境外网站建设
  • 网站接入服务提供单位做油漆的网站
  • 网站建设立项百度用户服务中心电话
  • 德清建设银行官方网站工程公司取名字大全
  • 购物商城html网站代码做外围网站代理违法吗
  • 珠海网站设计宝安做棋牌网站建设找哪家公司好
  • 平湖专业网站制作一般使用的分辨率的显示密度
  • 怎么做公司官方网站哈尔滨网站建设多少钱
  • 卓伊科技网站建设广州建网站兴田德润可信
  • 汉阳做网站多少钱定制网站和模板网站及仿站的区别
  • 烟台制作网站的公司简介广州做进口商品的网站
  • 广告设计公司需要什么资质wordpress如何优化页面
  • 如何建设网站兴田德润在那里查楼盘剩余房源的网站
  • 电商网站开发面试题wordpress 建站五分钟
  • 诏安建设局网站网站缓存实例
  • 做网站有哪些项目江苏国家企业信息系统
  • 个人如何制作网站源码asp网站设为首页代码
  • 海淀制作网站的公司视频网站能备案吗
  • 网站建设注意要求wordpress简易商城
  • 安徽网站建设电话网络推广的方法有什么
  • 高端网站设计工作室交换链接网站
  • 微信公众号平台官网免费注册网站meta 优化建议
  • 重庆中环建设有限公司网站企业官方网站是什么