做淘客网站需要备案,厦门seo大佬,品牌定位的七个步骤,登陆不了wordpress参考#xff1a;一文看懂推荐系统#xff1a;召回08#xff1a;双塔模型——线上服务需要离线存物品向量、模型更新分为全量更新和增量更新_数据库全量更新和增量更新流程图-CSDN博客
一文看懂推荐系统#xff1a;概要01#xff1a;推荐系统的基本概念_王树森 小红书-CSD…参考一文看懂推荐系统召回08双塔模型——线上服务需要离线存物品向量、模型更新分为全量更新和增量更新_数据库全量更新和增量更新流程图-CSDN博客
一文看懂推荐系统概要01推荐系统的基本概念_王树森 小红书-CSDN博客
系统把一篇笔记展示给用户这叫做曝光impression。 假如用户对这篇笔记感兴趣会点击它进入这篇笔记。 如果用户在这篇笔记上只有短暂停留瞬间溜了就意味着用户是手滑而不是真的对这篇笔记感兴趣这不会被算作一次有效点击。 有效笔记就意味着用户对笔记感兴趣这将被作为用户不是手滑【停留时间挺长的】这是真的对这篇笔记感兴趣这被算作一次有效点击。 推进系统决定给用户曝光什么内容用户自己决定是否点击进去点击进去是否会滑倒的底。 评论、点赞收藏转发的网站手下都会有不同的转化流程跟产品的设计有关。 算法工程师应该熟悉自己公司的产品这对设计特征和模型会有帮助。 对于绝大多数的公司的产品前两步都是曝光和点击比如YouTube、淘宝、快手、知乎都是这种设计 但是抖音不太一样抖音没有曝光的点击用户下滑你只能看到一个视频 点击之后用户会做设计的动作包括滑动、到底、点赞、收藏、转发 这些动作意味着用户对笔记感兴趣这些动作都可以作为推荐系统用的信号推荐依据。
点击率是一个重要的消费指标点击率等于点击次数除以曝光次数。 举个例子每天笔记展示得100个用户其中有20个用户点击了点击那么点击的点击率就是20%的 点击率越高就说明推荐越精准。
尝试一些用户没看过的话。那么点击率不会上涨但是会有利于提高用户粘性留住用户让用户更活跃。
推荐做的越好用户就会越上瘾使用小红的时长和阅读数量速度越高。
算法工程师的工作就是对模型、特征、策略系统和改进提升各种指标推进系统能否最终上线要拿实验结果来说话。
实验流程是先做离线实验表现好的话上线做小量的测试表现好的话加大流量最终目的是全流量上线。 第一步是离线实验用收集的历史数据做训练和测试 离线实验不需要把算法部署到产品中没有跟用户实际交互 因此离线实验很容易做不需要占用线上流量也不会对系统的用户产生负面影响 有很多评价离线实验的指标后面课程会讲离线实验的结果有参考价值能大致反映出算法的好坏 但是离线实验并没有线上实验可靠想最终判断算法的好坏还是需要做线上实验。 这两者的业务指标判断新策略是否会显著优于旧策略。
如果新策略显著优于旧策略可以加大流量最终推广。
推荐系统的链路
推荐系统的链路分为召回、粗排、精排、重排 第一步是召回从物品数据库中快速取回一些物品
比如小红书有上亿篇笔记当用户刷新小红书的时候 系统会同时调用几十条召回通道每条召回通道取回几十到几百篇笔记一共取回几千篇笔记。
做完召回之后接下来要从几千篇笔记中选出用户最感兴趣的。
下一步是粗排用规模比较小的机器学习模型给几千篇笔记逐一打分 按照分数做排序和截断保留分数最高的几百篇笔记
再下一步是精排。这里要用大规模的深度神经网络给几百篇笔记逐一打分。 精排的分数反映出用户对笔记的兴趣在精排之后可以做阶段也可以不做其他的操作。这几百篇笔记都带着精排分数进入重排。
重排是最后一步。这里会根据精排分数和多样性分数做随机抽样得到几十篇笔记 然后把相似内容打散并且插入广告和运营内容展示给用户。
推荐系统的目标是从物品的数据库中选出几十个物品展示给用户。 在我们小红书的场景下物品就是笔记。在实践中推荐系统有很多条召回通道。
常见的包括系统过滤、双塔模型、关注的作者等等。 比如小红书的推荐系统有几十条召回通道每条召回通道取回几十到几百篇笔记这些召回通道一共会返回几千篇笔记 然后推荐系统会融合这些笔记并且做去重和过滤。 过滤的意思是排除掉用户不喜欢的作者不喜欢的笔记不喜欢的话题找回几千篇笔记之后下一步是做排序。(粗排)
为了解决计算量的问题通常把排序分为粗排和精排这两步。
粗排用比较简单的模型快速给几千篇笔记打分保留分数最高的几百篇笔记。 精排用一个较大的神经网络给几百篇笔记打分精排模型比粗牌模型大很多用的特征也更多
所以精排模型打的分数更可靠但是精排的计算量很大。
这就是为什么我们先用粗排做筛选然后才用精排这样做可以比较好的平衡计算量和准确性。
做完粗排和精排得到几百篇笔记每篇笔记有一个分数表示用户对笔记的兴趣有多高 可以直接把笔记按照模型打的分数做排序然后展示给用户。 重排主要是考虑多样性 要根据多样性做随机抽样从几百篇笔记中选出几十篇 然后还要用规则把内容相似的笔记打散。
重排的结果就是最终展示给用户的物品 比如把前80的物品展示给用户其中包括笔记和广告。 粗牌和精排非常相似唯一的区别就是精排模型更大用的特征更多
模型的输入包括用户特征、候选物品的特征还有统计特征。
假如我们想要判断小王同学是否对某篇笔记感兴趣我们就要把笔记的特征、小王的特征还有很多统计特征输入神经网络。
神经网络会输出很多数值比如点击率、点赞率、收藏率、转发率这些数值都是神经网络对用户行为的预估。 这些数值越大说明用户对笔记越感兴趣 最后把多个预估值做融合得到最终的分数。 比如求加权和这个分数决定了笔记会不会被展示给用户以及笔记展示的位置是靠前还是靠后。
这只是对一篇笔记的打分粗排要对几千篇笔记打分精排要对几百篇笔记打分。 每篇笔记都有多个预估分数融合成一个分数作为你这篇笔记排序的依据。
重排最重要的功能是多样性抽样。 需要从几百篇笔记中选出几十篇笔记常见的方法有MMR和DPP抽样的时候有两个依据 一个依据是精排分数的大小另一个依据是多样性。 做完抽样之后会用规则打散相似内容。 我们不能把内容过于相似的笔记排在相邻的位置上。
如果排第一的是NBA的笔记那么接下来几个位置就不能放NBA的内容相似的笔记会往后挪。
重排的另一个目的是插入广告和运营推广的内容还要根据生态的要求调整排序比如不能连接出很多美女图片。 整条链路上召回的粗排是最大的漏斗。他们让候选笔记的数量从几亿变成几千然后变成几百。 当候选笔记只有几百篇的时候才能用大规模的神经网络做精排才能用DPP这样的方法做多样性抽样。 如果笔记的数量太大就不可能用大规模神经网络和DPP。
推荐系统的目标是从物品的数据库中选出几十个物品展示给用户推荐系统的链路分为召回、粗排、精排、重排为了解决计算量的问题通常把排序分为粗排和精排这两步。
离散特征如何表示one hot编码和embedding
向量召回 离散特征在推荐系统中非常常见 性别是离散特征分为男女两种类别 国籍是离散特征比如中国、美国、印度一共有200个左右的国家。 英文单词是离散特征常见的英文单词有几万个 物品ID是离散特征比如小红书有几亿篇笔记每篇笔记有一个ID 这样的离散特征处理比较困难因为类别数量实在太大了 用户ID也一样小红书有几亿个用户每个用户有一个ID推荐系统会把一个ID映射成一个向量。
第一步是建立字典把类别映射成序号。 以国籍特征为例建立一个国家的字典比如中国序号是一美国序号是二印度序号是三 第二步是做向量化把序号映射成向量。
one hot编码是一种常见的方法把序号映射成高维的稀疏向量。 比如有200个国家每个国家被映射成一个200维的向量序号对应的位置的元素是一其他位置的元素都是零。
embedding把序号映射成低维稠密向量比如处理国籍特征每个国家被映射成一个八维的稠密向量。 one hot编码很常用但是它有一定的局限性 比如在自然语言处理的应用中需要对单词做编码新闻至少有几万个常见的单词那么one hot向量的维度就是几万。 这个维度是很大的实践中通常不会用这么高维的向量 在实践中类别数量太大的时候通常不用one hot编码。 对于性别这样的离散特征类别数量很小可以直接用one hot向量。
但是对于单词物品ID这样的离散特征类别数量巨大用one hot向量并不合适。
embedding特征嵌入
它是另一种把序号映射成向量的方法
embedding把每个序号映射成一个向量这些向量都是低位向量 比如向量大小都是四乘以一的一个向量就是对一个国家的表示 未知国籍就用全零向量表示。 embedding的参数是一个矩阵大小是向量维度乘以类别数量。
embedding得到的向量都是四维的一共有200个国际那么就有200个向量 参数的数量是4乘以200等于800
直接用系统提供的embedding层 在训练神经网络的时候会自动做反向传播学习embedding的参数 embedding层的参数是一个矩阵矩阵的大小是向量维度乘以类别数量 embedding的输入是序号比如美国的序号是二 embedding层的输出是个向量即参数矩阵的一列 比如美国对应参数矩阵的第二列 第二个例子是物品ID的embedding 展示物品的数据库里一共有1万部电影。 推荐系统的任务是给用户推荐电影 embedding向量的维度是16也就是说用一个16维的向量表成一部电影。 参数的数量等于向量维度乘以类别数量 16乘以1万等于16万 这就是embedding层参数的数量
如果类别的数量不大只有几百万那么embedding层的实现是比较容易的。 但如果类别数量特别大比如推荐系统中的物品数量有几十亿那么embedding层的参数会特别大。 一个神经网络绝大多数的参数都在embedding层。
所以工业界深度学习系统都会对embedding层做很多优化这是存储和计算效率的关键所在。 图中的每个点表示一部电影的embedding如果训练的好从物品的embedding可以看出物品的特点。
比如右上角这些点都是动画片它们的距离比较近 右下角这些点都是间谍片它们也离的比较近 但是间谍片和动画片之间的距离会比较远。
embedding和one hot编码之间的关系
embedding其实就是把one hot的向量乘到一个参数矩阵W上得到的精致向量。
W就是根据神经网络学出来的经典转移矩阵
右边是一个one hot的向量它的第三个元素是一其余元素全都是零 中间是embedding乘的参数矩阵W把矩阵W和one hot向量相乘
由于one号向量只有第三个元素非零 所以矩阵向量乘法其实就是取出矩阵W的第三列把第三列作为输出 输出的向量就是参数矩阵×one hot向量。
从这个角度看embedding其实就是矩阵向量乘法。
word embedding Embedding在数学上表示一个maping, f: X - Y 也就是一个function其中该函数是injective 就是我们所说的单射函数每个Y只有唯一的X对应反之亦然和structure-preserving (结构保存 比如在X所属的空间上X1 X2,那么映射后在Y所属空间上同理 Y1 Y2)
那么对于word embedding就是将单词word映射到另外一个空间 其中这个映射具有injective和structure-preserving的特点。
单词嵌入就是把X所属空间的单词映射为到Y空间的多维向量 那么该多维向量相当于嵌入到Y所属空间中一个萝卜一个坑。
word embedding就是找到一个映射或者函数生成在一个新的空间上的表达 该表达就是word representation
one hot编码就是总共多少类别每个类别序号对应位置是1其余位置是0 embedding其实就是one hot向量×一个学习好的转移矩阵使得独特的输入x可以唯一映射到低纬度稠密向量空间的一个特征嵌入表示embedding y这个转移矩阵W可以通过神经网络学习
embedding他可以把用户ID或者物品ID映射成向量
这个模型就是基于embedding做推荐 模型的输入是一个用户ID和一个物品ID 模型的输出是一个实数两个向量的内积是用户对物品兴趣的预估值rate 这个数越大表示用户对物品越感兴趣。
左边的结构只有一个embedding层 把一个用户ID映射到一个向量去做向量a这个向量是对用户的表征。 回忆一下上一篇文章的内容embedding层的参数是一个矩阵W 矩阵中列的数量是用户数量每一列都是图中a这么大的向量。 embedding层的参数数量等于用户数量乘以向量a的大小。
右边的结构是另一个embedding层把一个物品ID映射到一个向量记作b 大小跟向量a这是乘一样的向量b是对物品的表征。 embedding层的参数是一个矩阵输出的向量b是矩阵的一列矩阵 中列的数量是物品的数量。
模型一共用了两个embedding层它们不共享参数 对向量a和b求内积得到一个实数作为模型的输出这个模型就是矩阵补充模型
刚才定义了模型结构接下来我要讲模型的训练。
首先讲训练的基本思路用户embedding参数是一个矩阵记作大A 用户对应矩阵的第u列记作向量au 物品embedding参数是另一个矩阵记作大B 物品对应矩阵的第b列记作做向量bi 向量au和bi的内积是第u个用户和第i个物品兴趣的预估值rate 内积越大说明用户u对物品i的兴趣越强。 训练模型的目的是学到矩阵A和B使得预估值rate和真实观测内积的兴趣分数矩阵更接近。 A和B是embedding参数。
开始训练之前首先要准备一个数据集 数据集是很多三元组的集合每个三元组包含用户ID、物品ID、兴趣分数y 三元组的意思是该用户对该物品真实的兴趣分数。
在系统里有记录把数据集记作Ω 它是这样三元组的集合U和I分别是用户ID和物品IDY是真实观测的兴趣分数 数据集中的兴趣分数是系统记录的。
训练的目的就是让模型的输出一个兴趣分数 模型中embedding层可以把用户ID和物品ID映射成向量 优化映射成向量au 第i号物品映射成向量bi 训练的时候要求解这样一个优化问题优化变量是矩阵A和B它们是embedding参数。 三元组UIY是训练集中的一条数据意思是用户u对物品I的真实兴趣分数是Y。
内积这一项是向量au和bi的内积它是模型对性取分数的预估 反应第u号用户有多喜欢第i号物品 y这一项是真实性取分数groundtruth 然后求Y与预估值内积之间的差 我们希望这个差越小越好 我们取差的平方差的平方越小则预估值越接近真实值。 Y对每一条记录的差的平方求和作为优化的目标函数。【这就是典型的MSE误差损失函数】
对目标函数求最小化优化的变量是矩阵A和B 求最小化损失函数可以用随机梯度下降的算法每次更新矩阵A和B的一列这样就可以学出矩阵A和B。 矩阵中只有少数位置是绿色 大多数位置都是灰色也就是没有曝光给用户的我们并不知道用户对没曝光的物品是否感兴趣。
我们刚才拿绿色位置的数据训练出了模型有了模型 我们就可以预估出所有灰色位置的分数 也就是把矩阵的元素给补全这就是为什么模型叫做矩阵补充
把矩阵元素补全之后我们就可以做推荐。 给定一个用户我们选出用户对应的行中分数较高的物品推荐给该用户。 补充的正样本指的是物品给用户曝光之后有点击交互的行为这样的正样本是OK的没问题
矩阵补充的负样本是曝光之后没有点击交互的物品这是种想当然的做法。 学数据的人可能以为这样没错但可惜这样在实践中不work。
训练模型的方法不好矩阵补充模型用向量au和bi的内积作为兴趣分数的预估 这样没错可以work但是效果不如余弦相似度。 双塔模型 它可以看作矩阵补充模型的升级版 双塔模型不单单使用物品ID和用户ID还会结合各种物品属性和用户属性 双塔模型的实际表现非常好。 在训练好模型之后可以把模型用作配件系统中的召回通道 比如在用户刷小红书的时候快速找到这个用户可能感兴趣的一两百篇笔记 做完训练之后再把模型存储在正确的地方。 便于做召回训练得到矩阵A和B它们是以embedding参数 A的每一列对应一个用户 B的每一列对应一个物品。
做推荐的时候要用到矩阵A和B这两个矩阵可能会很大 比如小红书有几亿用户几亿篇笔记 那么这两个矩阵的列数都是好几亿。 某用户刷小红书的时候小红书的后台会开始做召回 把周围用户最可能感兴趣的K的物品作为召回结果这叫做最近邻查找nearest neighbor search
把第i个物品embedding向量记作bi 计算用户向量a和物品向量bi的内积。 这是用户对第i号物品进取分数的预估。
返回内积最大的K的物品比如K等于100这些物品就是召回的结果。
这种最近邻查找有个严重的问题如果逐一对比所有物品暴力方法的时间复杂度会正比于物品数量这种巨大的计算量是不可接受的。
比如小红书有几亿篇比积那么就有几亿个向量B逐一计算向量a和每个向量B的内积 是不现实的根本做不到线上的实时计算
快速最近邻查找
快速最近零查找的算法已经被集成到很多向量数据库系统中 最近邻查找需要定义什么是最近邻 也就是衡量最近邻的标准 比如最近邻距离可以定义为欧式距离最小的最近邻 也可以定义为向量内积最大的这叫做内积相似度。 本文的矩阵补充用的都是内积相似度 目前推荐系统最常用的是余弦相似度其最近邻是向量夹角最小的。 如果你把所有向量都做归一化让它们的二范数全都等于一那么内积就等于余弦相似度。 右边的五角星表示一个用户的embedding向量记作a 我们想要召回这个用户可能感兴趣的物品 这就需要计算向量a与所有点的相似度。
介绍一种加速最近查找的算法在做线上服务之前先对数据做预处理 把数据划分成很多区域比如这样划分 至于如何划分取决于衡量最近邻的标准 如果是cos相似度那么划分的结果就是这样的扇形 如果是用欧式距离那么划分的结果就是多边形划分 之后每个区域用一个向量表示
比如那个蓝色区域用那蓝色向量表示 比如那个黄色区域用那个黄色向量表示
这些向量长度都是一。
划分区域之后建立索引把每个区域的向量作为key把扇区区域中所有点的列表作为value【这样就省掉了大量的key用一个代表表示】 给定这个向量就能取回蓝色扇形区域中的所有的点。 划分区域之后每个区域都用一个单位向量来表示 假如有一个点那么划分成1万个区域索引上一共有1万个key值 每个向量是一个区域的key值
给定一个向量可以快速取回这个区域内所有的点。 有了这样一个索引就可以在线上快速做召回了。
在线上给一个用户做推荐这个用户的一个向量记作a。 我们首先把向量a跟索引中这些代表向量做对比量很少计算它们的相似度 如果物品数量是几亿索引中的向量数量也只有几万而已。这一步的计算开销不大
计算相似度之后我们发现索引中下面橘色这个向量与a最相似。 通过索引我们找到这个区域内所有的点每个点对应一个物品。 接下来我们计算点a跟区域内所有点的相似度 如果一共有几亿个物品被划分到了几万个区域 平均每个区域只有几万个点所以这一步只需要计算几万次相似度计算量也不大。
假如我们想要找向量a最相似的三个点。 夹角最小的三个点他们会找到这三个对应三个物品这三个物品就是最近邻查找的结果 哪怕有几亿个物品用这种加速算法做查找也只需要计算几万次 相似度比暴力枚举快1万倍。
-------------------------------------------------
主要介绍了矩阵补充模型 矩阵补充的想法是把物品ID和用户ID做embedding映射成两个向量 两个向量记作au和bi 两者内积作为用户u对物品I兴趣的预估值rate。 实践中都用近似最近邻加速算法进行查找通常会用一些开源的向量数据库比如milvusfaisshnswlib这些向量数据库都会支持近似最近邻加速算法进行查找。
模型的输出是一个实数两个向量的内积是用户对物品兴趣的预估值rate这个数越大表示用户对物品越感兴趣。加速的最近邻算法查找说白了就先大范围搜索再小范围精确对比。