当前位置: 首页 > news >正文

网站开发怎么样?wordpress智能推荐插件

网站开发怎么样?,wordpress智能推荐插件,中英文网站建设 pdf,天津网站建设价格多少前言 在上一篇文章中 CTR之行为序列建模用户兴趣#xff1a;DIN#xff0c;开启了用户行为序列建模用户兴趣的篇章。DIN引入了Attention机制#xff0c;对于不同的候选item#xff0c;可以根据用户的历史行为序列#xff0c;动态地学习用户的兴趣表征向量。但是#xff…前言 在上一篇文章中 CTR之行为序列建模用户兴趣DIN开启了用户行为序列建模用户兴趣的篇章。DIN引入了Attention机制对于不同的候选item可以根据用户的历史行为序列动态地学习用户的兴趣表征向量。但是DIN没有考虑用户历史行为序列之间的相关性也没考虑序列的先后顺序难以捕获用户兴趣的变化。 概要 论文Deep Interest Evolution Network for Click-Through Rate Prediction 链接https://arxiv.org/pdf/1809.03672.pdf 在CTR模型中通过用户的行为数据捕获用户的潜在兴趣是非常重要的。另外考虑到外在环境和内在认知的变化用户的兴趣是随着时间在动态演变的。 而许多CTR预估模型直接把用户行为(item)的表征当做兴趣而缺少具体的行为下潜在兴趣的特定建模少部分研究也会考虑到兴趣的变化趋势。 因此在这篇论文中阿里提出了一种新的模型 Deep Interest Evolution Network (DIEN) 设计了一种兴趣提取网络interest extractor layer从历史行为序列来捕获用户的时间性兴趣temporal interests并且针对GRU的隐状态hidden state在兴趣表征上能力不足的问题加入了一种辅助loss它使用连续的行为来激励每一步隐状态的学习提升隐状态表征潜在的兴趣的能力另外还设计了兴趣演变网络interest evolving layer使用引入注意力机制的更新门控网络AUGRU增强相关的兴趣对目标item的影响并克服了推理时的兴趣漂移问题。 DIEN的整体网络结构如下图 对比DIN的优势 用户的行为序列信息是非常有价值的即能够捕获用户的兴趣演变过程在许多推荐场景下是十分有用的比如电商推荐场景用户前段时间在挑选手机那么这段时间的行为序列会集中在手机这个品类的商品但在他完成手机的购买之后近期的兴趣可能就会变成篮球。 而DIN没有考虑序列信息无法学习到这种时间性的兴趣趋势演变那么DIN就会变成基于所有历史行为进行综合推荐而不是像DIEN这种“针对下一次购买动机的推荐”。 基础模型 CTR的深度学习基础模型结构基本都是一致的包括特征表征feature representation、模型结构model structure、损失函数loss function而模型结构由Embedding和MLP组成。 特征表征 通常的在线推荐系统主要包括四类特征用户属性(User Profile)、用户行为(User Behavior)、广告Ad(target item)和上下文(Context)每一类都有多个特征域fields 用户属性的fields一般有性别、年龄等用户行为的fields则是用户点击过的goods id列表当然也可以有其他的field比如用户点击过的的shop_id、cat_id等广告的fields一般有ad_idshop_id等上下文的fields则有时间等 每一个field的特征值可以编码为one-hot向量如性别男编码为[1,0]而性别女则编码为[0,1]。四类特征对应的不同fields的编码向量拼接起来分别用 x p , x b , x a , x c x_p,x_b,x_a,x_c xp​,xb​,xa​,xc​ 来表示。 在序列CTR模型中用户行为的每一种field是多个行为组成的列表而每一个行为对应一个one-hot向量 x b [ b 1 ; b 2 ; b T ] ∈ R K × T b t ∈ { 0 , 1 } K x_b[b_1;b_2;b_T] \in \mathbb{R}^{K \times T}b_t \in \{0,1\}^K xb​[b1​;b2​;bT​]∈RK×Tbt​∈{0,1}K b t b_t bt​是第t个行为的one-hot向量T是用户历史行为的个数K则是用户可能点击到的商品的总量。 EmbeddingMLP Embedding. Embedding是一种很广泛使用的将大规模离散特征转化为低维的稠密特征。在embedding layer中每一个field会有一个对应的embedding矩阵。例如用户点击过的商品的embedding矩阵可以表示为 E g o o d s [ m 1 ; m 2 ; m K ] ∈ R n E × K E_{goods}[m_1;m_2;m_K] \in \mathbb{R}^{n_E \times K} Egoods​[m1​;m2​;mK​]∈RnE​×K m j ∈ R n E m_j \in \mathbb{R}^{n_E} mj​∈RnE​代表一个维度为 n E n_E nE​的embedding向量。 再具体一点对于用户行为特征 b t b_t bt​当 b t [ j t ] 1 b_t[j_t]1 bt​[jt​]1时它对应的embedding向量便是 m j t m_{j_t} mjt​​因此一个用户的行为的有序的embedding向量列表可以表示为: e b [ m j 1 ; m j 2 ; . . . ; m j T ] e_b[m_{j_1};m_{j_2};...;m_{j_T}] eb​[mj1​​;mj2​​;...;mjT​​] 同理 e a e_a ea​代表上述四类中的广告这类特征中所有fields的拼接embedding向量。 Multilayer PerceptronMLP. 首先这四类特征的embedding向量会分别进行pooling操作concat、mean pooling或sum pooling等然后再拼接起来。最后拼接后的向量再进入MLP得到最后的预测值。 损失函数 深度学习CTR模型最常用的损失函数是负negative log-likelihood负对数似然函数使用target item的标签来监督整体的预测 x [ x p , x b , x a , x b ] ∈ D D x[x_p,x_b,x_a,x_b] \in \mathcal{D}\mathcal{D} x[xp​,xb​,xa​,xb​]∈DD是数量为N的训练样本集合。 y ∈ { 0 , 1 } y \in \{0,1\} y∈{0,1}表示用户是否点击了target item。 p ( x ) p(x) p(x)是整个网络的输出表示用户点击target item的预估概率。 DIEN结构 如下图所示DIEN由以下几部分组成 所有类别特征通过Embedding Layer转换为embedding向量DIEN通过两个步骤来捕获兴趣演变interest extractor layer兴趣提取层会通过历史行为序列来提取兴趣序列interest evolving layer兴趣演变层来建模与target item相关的兴趣演变过程最后的兴趣表征final interest和广告、用户属性、上下文的embedding向量进行拼接拼接的向量输入到MLP得到最后的预测值。 DIEN-兴趣提取层 在电商系统中用户的行为是潜在兴趣的载体用户的兴趣会在产生一个行为之后发生改变。在这个兴趣提取层中将会从用户行为序列中提取一系列兴趣状态interest states。 GRU建模 用户的点击行为包含丰富的信息即使在短期内行为序列长度也可能是很长的比如两周内。综合了效率和效果论文使用GRU来建模不同行为之间的关系输入是根据发生时间排序的行为。GRU解决了RNN的梯度消失问题并且比LSTM更快。GRU的数学表达式如下 σ \sigma σ是sigmoid函数 ∘ \circ ∘ 是element-wise product W u , W r , W h ∈ R n H × n I W^u,W^r,W^h \in \mathbb{R}^{n_H \times n_I} Wu,Wr,Wh∈RnH​×nI​ U z , U r , U h ∈ n H × n H U^z,U^r,U^h \in n_H \times n_H Uz,Ur,Uh∈nH​×nH​ n H n_H nH​是隐藏层维度 n I n_I nI​是输入的维度 i t i_t it​是GRU的输入 i t e b [ t ] i_te_b[t] it​eb​[t] 是第t个行为的表征 h t h_t ht​是第t个隐状态hidden states。 辅助损失 然而捕获行为之间的关系的隐状态 h t h_t ht​并不能高效地表征兴趣。因为target item的点击行为的驱动是final interest即标签 L t a r g e t L_{target} Ltarget​仅仅是对final interest的预测的监督的ground truth然而历史状态 h t ( t T ) h_t(tT) ht​(tT)并不能得到正确的监督。 众所周知每一步的兴趣状态会直接引导连续的行为。所以论文提出一种辅助loss 使用下一个行为 b t 1 b_{t1} bt1​来监督兴趣状态当前 h t h_t ht​的学习除了使用真实的下一个行为来作为正样例还进行负采样从所有item中采样一个未被点击过的item来作为负样例 因此存在N对行为序列其对应的embedding如下 { e b i , e ^ b i } ∈ D B , i ∈ 1 , 2 , . . . , N \{e_b^i,\hat{e}_b^i\} \in \mathcal{D}_{\mathcal{B}},i \in 1,2,...,N {ebi​,e^bi​}∈DB​,i∈1,2,...,N e b i ∈ R T × n E e_b^i \in \mathbb{R}^{T \times n_E} ebi​∈RT×nE​ 对应用户点击过的序列而 e ^ b i ∈ R T × n E \hat{e}_b^i \in \mathbb{R}^{T \times n_E} e^bi​∈RT×nE​ 则对应负采样的序列。 n E n_E nE​是embedding的维度大小T是历史行为item的数量。 e b i [ t ] ∈ G e_b^i[t] \in \mathcal{G} ebi​[t]∈G 代表用户i点击的第t个item的embedding。 辅助loss的表达式如下 其中论文提到 σ ( x 1 , x 2 ) 1 1 e x p ( − [ x 1 , x 2 ] ) \sigma(x_1,x_2)\frac{1}{1exp(-[x_1,x_2])} σ(x1​,x2​)1exp(−[x1​,x2​])1​ 是一个sigmoid激活函数但看源码实现其实是一个激活函数为sigmoid的MLP。 h t i h_t^i hti​ 是用户i的第t个GRU隐状态。 加入辅助loss之后全局的loss则变成了 L L t a r g e t α ∗ L a u x LL_{target}\alpha\ *\ L_{aux} LLtarget​α ∗ Laux​ α \alpha α是一个平衡兴趣表征和CTR预估的超参数。 辅助loss带来的好处有以下几点 在兴趣学习方面提升GRU的隐状态对兴趣的表征能力在GRU学习迭代方面降低反向传播的难度当对较长的历史行为序列进行建模时为embedding层的学习提供更多的语义信息能够得到一个更好的embedding矩阵 在辅助loss的作用下每一个隐状态 h i h_i hi​应有能够充分表征兴趣状态在用户进行了行为 i t i_t it​ 之后。 T个兴趣状态 [ h 1 , h 2 , . . . , h T ] [h_1,h_2,...,h_T] [h1​,h2​,...,hT​] 拼接之后组成了用户的兴趣序列会作为下一个网络层-兴趣演变层的输入来建模兴趣演变趋势。 DIEN-兴趣演变层 兴趣演变 上述提到在外在环境和内在认知的联合影响下用户的不同兴趣类型是一直在变化的。拿服装来说随着流行趋势和用户品类的变化用户的服装偏好也在演变。这个兴趣的演变过程直接决定了CTR模型的服装候选集。 建模这个演变过程的好处有以下几点 兴趣演变模块能够用更多的相关历史信息来补充final interest的表征它更好地随着兴趣变化趋势来进行target item的预估 在演变过程中兴趣尤其表现了两个特性 由于兴趣的多样性兴趣是会漂移的。比如用户可能在前一段时间比较关注书籍但在下一段时间却更需要衣服。即使兴趣会彼此影响但每个兴趣都有着自己的演变过程。比如书籍和服装的演变过程是几乎完全独立我们只需要关注与target item相关的演变。 注意力机制的GRU 通过分析兴趣演变的特征论文结合注意力机制的局部激活能力和GRU的序列化学习能力来建模这个兴趣演变。GRU的每一步局部激活可以加强相关兴趣的相互作用弱化兴趣漂移的困扰这对建模与target item相关的演变过程是非常有帮助的。 与原始GRU的表达式一样使用 i t ′ , h t ′ i_t,h_t it′​,ht′​ 表示兴趣演变模块的输入和隐状态第二个GRU的输入则对应兴趣提取层的兴趣状态 i t ′ h t i_th_t it′​ht​最后一个隐状态 h T ′ h_T hT′​ 代表final interest state具体的注意力函数如下式 e a e_a ea​ 是上述四类特征中的广告Adtarget item的不同fields的embedding向量拼接。 W ∈ R n H × n A W \in \mathbb{R}^{n_H \times n_A} W∈RnH​×nA​ n H n_H nH​ 是隐状态的维度 n A n_A nA​ 是广告embedding向量的维度。 注意力得分会影响广告 e a e_a ea​ 和输入 h t h_t ht​ 的相关关系更高的得分则代表着更强的相关性。 下面是论文提出的GRU结合注意力机制的几种方式 GRU with attentional input (AIGRU). 为了激活相关的兴趣AIGRU是一种最直接的方法使用注意力得分来影响输入兴趣状态如下式 i t ′ h t ∗ α t i_th_t\ *\ \alpha_t it′​ht​ ∗ αt​ h t h_t ht​是兴趣提取层的第t个隐状态而 i t ′ i_t it′​ 是第二个GRU的的输入即上图[兴趣演变模块]中的AUGRU的输入 ∗ * ∗ 表示是向量点积。 对于AIGRU不怎么相关的兴趣会降低注意力得分。理论上得分可以降低直为0。然而AIGRU并不能很好起效因为即使接近0的输入也可以改变GRU的隐状态所以不怎么相关的兴趣会影响到兴趣演变的学习。 Attention based GRU(AGRU). AGRU在QA问答领域中第一次被提出通过来自注意力机制的embedding信息优化了GRU的结构之后AGRU可以在复杂的查询中有效提取关键信息。 基于此论文也使用AGRU这种有效机制在兴趣演变过程中来捕获相关的兴趣。具体的AGRU使用注意力得分来替代GRU中的更新门控直接地改变隐状态 h t ′ , h t − 1 ′ , h ~ t ′ h_t,h_{t-1}, \tilde{h}_t ht′​,ht−1′​,h~t′​ 都是隐状态。 **AGRU利用注意力得分来直接控制隐状态的更新减弱在演变过程中不相关的兴趣。**进入的注意力embedding提升了注意力机制的影响并且克服了AIGRU的缺点。 GRU with attentional update gate (AUGRU). AGRU使用一个标量形式的注意力得分 α t \alpha_t αt​ 来代替向量形式的更新门控 u t u_t ut​但这忽略了不同维度是有着不同重要性的。因此提出了注意力的更新门控AUGRU u t ′ u_t ut′​ 是原来的更新门控 u ~ t ′ \tilde{u}_t u~t′​ 是注意力的更新门控 h t ′ , h t − 1 ′ , h ~ t ′ h_t,h_{t-1}, \tilde{h}_t ht′​,ht−1′​,h~t′​ 都是隐状态。 AUGRU保留原来更新门控的维度信息这可以来学习每个维度的重要性。在此基础上使用注意力得分来缩放更新门控的所有维度这可以减少不相关的兴趣对隐状态的影响。AUGRU有效避免了兴趣漂移的困扰并且让相关的兴趣更顺滑地演变。 实验结果 总结 DIEN相比DIN引入用户历史行为序列的时间性信息使用GRU来建模兴趣状态并且引入辅助loss来提升对兴趣的表征能力接着第二个GRU再利用上一步的兴趣状态序列来建模用户兴趣演变过程得到最终的兴趣状态并且加入注意力机制来减弱不相关的兴趣的影响避免了兴趣漂移的问题其实整个DIEN结构还是比较好理解的但是一些对行为序列和用户兴趣的分析还是值得仔细阅读的。 代码实现 git 推荐系统CTR建模系列文章 CTR之行为序列建模用户兴趣DIN CTR特征重要性建模FiBiNetFiBiNet模型 CTR预估之FMs系列模型:FM/FFM/FwFM/FEFM CTR预估之DNN系列模型:FNN/PNN/DeepCrossing CTR预估之WideDeep系列模型:DeepFM/DCN CTR预估之WideDeep系列(下):NFM/xDeepFM CTR特征建模ContextNet MaskNet(Twitter在用的排序模型)
http://www.dnsts.com.cn/news/132725.html

相关文章:

  • 网站开发设计总结及心得体会用什么软件写网站
  • 钟祥网站制作出库入库管理软件app
  • 电信服务器优化网站的软件
  • 易企秀怎么做网站链接如何快速增加网站收录
  • 普通网站和营销网站有何不同哪里有网络课程平台网站_就是帮老师建设一个教学的网站
  • 河南网站开发公司人才网网站建设方案
  • 营销型网站建设服务商青龙建站教程
  • 做网站时如何上传图片codewars网站
  • 网站建设列入无形资产管理吗建筑模板规格
  • 联邦快递网站建设的目标网站的特征包括哪些
  • 东莞市品牌网站建设把网站传到服务器上怎么做
  • 代做土木毕业设计网站网站重新解析
  • 做淘宝那样的网站做远程培训网站用什么系统
  • 思途智旅游网站开发建设网站要准备什么
  • 网站公司做文员seo需要会网站建设吗
  • 创建网站要多长时间广州外贸公司联系方式
  • 校园招生网站建设的简报淮北论坛招聘求职
  • 湖南沙坪建设有限公司网站注册安全工程师白考了
  • 公司网站制作费用浙江省特种作业证查询官网
  • 德阳市住房和城乡建设局网站首页百度助手免费下载
  • 网站建设及使用制作一个网站需要多少钱
  • 杭州企业网站制作加驰牛科技长春阿凡达网站建设
  • 阳新网站建设用什么编程语言做网站好
  • 口碑好的网站开发公司电话网站建设ktv
  • 郑州网站提升排名视频号直播怎么引流
  • 网站建设协议 模板wordpress友情链接导入
  • 鄂尔多斯市住房和城乡建设厅网站网站没有索引量是什么
  • 怎么免费建自己的网站运城市做网站
  • 河北企业建网站天津市建筑信息平台
  • 宠物网站设计模板做网站如何设计数据库