当前位置: 首页 > news >正文

眼镜网站怎么做wordpress搬家缩略图都没

眼镜网站怎么做,wordpress搬家缩略图都没,宁波网站建设速成,成都网站设计开发公司说明 这部分应该是Multi-Armed Bandit的最后一部分了。 内容 1 On Line Ads 这个实验#xff0c;最初的目的就是为了选出最佳的广告。首先#xff0c;通过伯努利分布#xff0c;模拟了某个广告的有效率。在真实场景里#xff0c;我们是无法知道那个广告更好的。可能在t…说明 这部分应该是Multi-Armed Bandit的最后一部分了。 内容 1 On Line Ads 这个实验最初的目的就是为了选出最佳的广告。首先通过伯努利分布模拟了某个广告的有效率。在真实场景里我们是无法知道那个广告更好的。可能在train阶段可以获得一些模糊的参考但是使用强化学习的目的就是让其随着现实返回进行自发调整。 可以把一个模型或者一个版本视为一个bandit。强化框架的意义在于最大化的利用已有的一套bandit在过程中最优的bandit会自动浮现从而解开最初建模阶段的一些迷惑。 class BernoulliBandit(object):def __init__(self, p):self.p pdef display_ad(self):reward np.random.binomial(n1, pself.p)return rewardadA BernoulliBandit(0.004) adB BernoulliBandit(0.016) adC BernoulliBandit(0.02) adD BernoulliBandit(0.028) adE BernoulliBandit(0.031)ads [adA, adB, adC, adD, adE]2 强化学习 在之前的样例中我们已经尝试了A/B/n test 、eps greedy、UCB等三个方法现在是最后一种方法Thompson Sampling 初始化过程 这段代码看起来像是为Multi-Armed Bandit Proble 中的 Thompson Sampling 算法做准备。Thompson Sampling 是一种用于解决探索-利用困境的随机化算法它基于贝叶斯方法在每个时间步骤根据先验分布和观察到的奖励来更新每个臂的概率分布。 在 Thompson Sampling 中每个臂都有一个 Beta 分布其中 α 参数表示已经获得的奖励次数β 参数表示已经尝试的次数减去获得奖励的次数。在每个时间步骤根据每个臂的 Beta 分布随机抽样选择具有最大样本值的臂作为当前时间步的动作。 n_prod 100000 n_ads len(ads) alphas np.ones(n_ads) betas np.ones(n_ads) total_reward 0 avg_rewards []for i in range(n_prod):theta_samples [np.random.beta(alphas[k], betas[k]) for k in range(n_ads)]ad_chosen np.argmax(theta_samples)R ads[ad_chosen].display_ad()alphas[ad_chosen] Rbetas[ad_chosen] 1 - Rtotal_reward Ravg_reward_so_far total_reward / (i 1)avg_rewards.append(avg_reward_so_far) df_reward_comparison[Thompson Sampling] avg_rewards这段代码做了以下几件事情 对于每个时间步骤 i从每个臂的 Beta 分布中采样一个值 theta_samples。 选择具有最大 theta_samples 的臂作为当前时间步骤的动作 ad_chosen。 显示所选择广告并获取奖励 R。 根据获得的奖励更新所选臂的 Alpha 和 Beta 参数。 计算当前总奖励 total_reward 和平均奖励 avg_reward_so_far。 将平均奖励添加到 avg_rewards 列表中。 将 avg_rewards 列表添加到 DataFrame 中命名为 ‘Thompson Sampling’。 3 UCB 这个漏掉了补一下 分别使用3个参数分别跑 # c 0.1 # c 1 c 10 n_prod 100000 n_ads len(ads) ad_indices np.array(range(n_ads)) Q np.zeros(n_ads) N np.zeros(n_ads) total_reward 0 avg_rewards []for t in range(1, n_prod 1):if any(N0):ad_chosen np.random.choice(ad_indices[N0])else:uncertainty np.sqrt(np.log(t) / N)ad_chosen np.argmax(Q c * uncertainty)R ads[ad_chosen].display_ad()N[ad_chosen] 1Q[ad_chosen] (1 / N[ad_chosen]) * (R - Q[ad_chosen])total_reward Ravg_reward_so_far total_reward / tavg_rewards.append(avg_reward_so_far)df_reward_comparison[UCB, c{}.format(c)] avg_rewards这段代码实现了上限置信区间Upper Confidence Bound, UCB算法。UCB算法通过平衡探索Exploration和利用Exploitation来选择动作。其中参数c用于调整探索与利用之间的权衡。 这段代码中c 参数用于控制探索的程度。较大的 c 值将会更加强调探索而较小的 c 值则更加强调利用。 这段代码的逻辑如下 如果有至少一个广告的点击次数为零则在这些广告中随机选择一个。 否则计算每个广告的置信区间上界并选择置信区间上界最大的广告。 显示所选择的广告并获取奖励。 更新所选广告的点击次数和平均奖励。 计算当前总奖励和平均奖励将平均奖励添加到列表中。 将平均奖励列表添加到 DataFrame 中命名为 ‘UCB, c{}’。 4 Next Review一下这一章然后找一个具体的实用样例来进行实测最后发布为前后端微服务。
http://www.dnsts.com.cn/news/72813.html

相关文章:

  • 嘉兴网站建设有前途吗在成都如何找到做网站的公司
  • 网站建设与管理课程标准wordpress编辑器商品模板
  • 如何更改网站模板好的摄影网站
  • 企业网站建设方案包含十大购物网站排名
  • 合肥做企业网站的网络公司wordpress快速开发
  • 网站开发 文件上传慢qq刷赞网站推广全网
  • 百度不收录的网站wordpress判断文章id
  • 西安建设网站首页微博营销的方法和手段
  • 国家高新技术企业申报时间合肥优化网站
  • seo网站优化推广怎么做视频怎么转wordpress
  • 厦门市建设与管理局 官方网站新手做网站
  • 厦门网站开发公司学生个人网页设计主题
  • dw制作网站免费ppt模板 网站开发
  • 国内团购网站做的最好的是wordpress添加登录注册按钮
  • app和手机网站关键字优化价格
  • 网站建设比较好的公司都有哪些做三个月网站 广告收入
  • 网站建设云主机云服务器建筑设计作品展示网站
  • 哈尔滨网站建站模板成都企业网站seo技术
  • 电子商务网站建设 教材合肥专业做网站公司有哪些
  • 如何做国外外贸网站在网站中添加百度地图
  • 东莞网站建设设计公司哪家好郑州公司网页
  • 牛仔网站的建设风格如何将别人的网站作为自己的
  • 百度怎样收录到网站博客html模板
  • 牡丹江网站建设威特视频网站建设方案
  • 网站HTML怎么做链接潍坊市住房和城乡建设局网站
  • 想自己做淘宝有什么网站吗常州市网站建设设计
  • 网站的后续优化方案想做个网站推广
  • 展示型网站 营销型网站市场营销推广方案怎么做
  • 修改网站参数做国外网站用国内服务器
  • 网站建设属于什么行业类别新乡seo外包