当前位置: 首页 > news >正文

网站建设终身不用维护手机网站创建

网站建设终身不用维护,手机网站创建,No商业网站建设,wordpress底部悬浮目录 2024美赛数学建模各题思路模型代码#xff1a;开赛后第一时间更新#xff0c;更新见文末 一、2023题目重述 拟解决的问题 我们的工作#xff1a; 二、模型和计算 1.数据预处理 2.报告数量区间预测模型 3.猜词结果分布预测模型 2024美赛数学建模交流#xff0…目录 2024美赛数学建模各题思路模型代码开赛后第一时间更新更新见文末 一、2023题目重述 拟解决的问题 我们的工作 二、模型和计算 1.数据预处理 2.报告数量区间预测模型 3.猜词结果分布预测模型 2024美赛数学建模交流历年获奖论文获取 2024美赛数学建模各题思路模型代码开赛后第一时间更新更新见文末 一、2023题目重述 Homer是棒球运动中的术语是非正式的美式英语单词。令人惊讶的是Homer本垒打在剑桥词典网站的搜索次数超过79000次在5月5日这一天内被搜索65401次。就这样Homer成为《剑桥词典》的2022年度词汇。可能你会好奇其中的原因这就要从海外非常火的一款猜词游戏Wordle说起了。在2022年在线益智游戏Wordle在社交媒体刷屏。而Wordle那天的答案是Homer这难倒了不熟悉这个单词的非美国用户。 Wordle是目前《纽约时报》每日提供的一个热门谜题。Wordle的受欢迎程度不断提高目前已有60多种语言版本。玩家可以选择的模式有“常规模式”或困难模式。玩家试图在六次或更少的尝试中猜测一个五字词来解决这个难题每次猜测都会得到反馈方块的颜色会发生变化绿色、黄色、灰色。注意每个猜测都必须是英语中的一个实词。不被比赛认可为文字的猜测是不被允许的。 拟解决的问题 开发一个模型来解释报道结果的数量变化并创建2023年3月1日报告结果的数量预测区间。分析单词的属性对玩家的模式选择的影响程度。 开发一个模型来预测报告结果的分布。分析模型和预测存在的不确定性因素。 开发一个模型来分类解答词难度。识别与每个分类相关联单词的属性。 描述数据集的其他有趣特征。 大致能看出来三个问题最后一个语文建模。后来我们发现把前三个问踩过的坑扔到第四问就够了。 我们的工作 我们共提出了三个模型来挖掘报告结果数据的信息。 本文的其余部分组织如下。第二部分介绍了本文的前提假设与合理解释。第三节提及了文中使用的公式中的常用变量。第四节进行了建模前对的数据预处理工作。第五节建立了报告数量区间预测模型并探索了单词属性与模式选择的关系。第六节建立了报告结果分布预测模型。第七节建立了词汇难度分类模型。第八节继续探索数据集的有趣特征。第九节和第十节分别对模型的灵敏度进行分析进一步评估模型的优缺点。最后第十一节给出了结论。 二、模型和计算 1.数据预处理 这套数据有几个词不是五个字母但因为都是发生过的统计我们直接翻到了过去这些期词汇的统计修改了一下。还有529号study的结果目测就有问题我们取前后几天的均值修正了一下。这里怎么处理问题都不大。 2.报告数量区间预测模型 **我们希望在已有数据的基础上建立一种数学模型用于描述Twitter上报告结果数量随时间变化的过程和预测未来一定时间内的热度且模型对于变化过程具有解释性。该问题是近年来常受到讨论的热度预测问题。 通过查阅文献[4]我们得知业界目前两类常用的热度预测算法包括基于节点行为动力学的时序模型和深度学习类方法。但是它们并不适用于本文所研究的情形。主要因为如下两个原因 现有数据集中并不包含报告人是谁、所有时间内总共有多少人等具体信息基于该数据集无法建立节点模型 深度学习等技术不具有良好的可解释性并且大都需要更多的训练数据才能达到较好的预测效果。 因此我们从统计学角度出发基于非齐次泊松过程和3阶高斯回归3rd-order gaussian regression建立了wordle报告数量预测模型。** 这一问从建立模型到计算求解我几乎全程没参与因为我没学过信息论从这个模型提出开始我就不懂了。我贴一些原文的内容和记忆中当时的一些处理办法。 一眼需要时间预测模型。当时建模队友恰好在复习信息论和开学考期末和解这个趋势画出来特别像对数正态分布的曲线。刚开始的时候上涨很快后期逐渐下降最后能剩下的都是坚持在玩的老玩家。当时建模哥觉得这个很符合实际并且会挺新颖的就顺着这个研究下去了。后来发现有地方解释不了报告数量的分布在时间上并非均匀的而对数正态分布没有考虑时间因素。卡在这里很久一度考虑过要不要换一个预测模型。后来还是顺着拟合的路走下去了。 基于高斯回归的趋势预测模型 在本数据集中报告数量的时间序列存在明显的趋势迹象。我们尝试了多种回归算法对报告数量随时间的变化趋势进行拟合其中效果最好的是3阶高斯回归。 如果我没记错这个是从matlab的cftool里挨个试出来的。就是简单的拟合了一下我们也没有做过多的说明 然后考虑预测区间也就是每天的随机波动。 基于非齐次泊松过程的报告数量预测模型 泊松分布描述了在事件发生速率为常数的条件下一段时间内一定数量事件发生的概率因此可以描述一天内上传的一定数量的报告的概率。我们假设每一天的报告数量均服从于泊松分布则这些泊松分布在时间上组成了一个非齐次泊松过程即到达强度随时间变化的泊松过程。 真的按照这个公式来计算区间会发现预测的效果没有那么理想。后期较为平稳的部分有一些地方反倒波动比较大出现非常离谱的尖刺。为了消掉后期区间的尖刺需要进行一定的比例放缩也就是基于热度松弛函数的随机过程修正部分。这部分先找到了一个可以消掉尖刺的函数然后根据这个函数去找适合它的定义还真找到了这个热度松弛现象。 我个人觉得这一问模型套模型的解法整个论文写下来松弛函数这里显得很秀。其实只是为了得到一个比较好看的预测结果凑出来的罢了 最后我们预测出来的大致是这样。上面松弛函数乘进去直接让前面的预测区间更大后面的更小。看起来就跟实际比较像了。 其实这个结果得出来的特别波折但是论文写出来的逻辑相当流畅把解释不了的地方避重就轻的一带而过能解释出来的部分狠狠夸了一波。展现出来的就是这种很厉害但又有点云里雾里的感觉。 分析单词的属性对玩家困难模式选择的影响程度这里我们把能想到的所有属性都列了一遍。画出来散点图发现除了时间以外都没什么关系。然后就大胆写上了也没去刻意寻找什么关系。 3.猜词结果分布预测模型 为了预测未来报告结果的分布我们首先对数据特征进行了提取与构建。接着我们搭建BP神经网络模型将7个数据特征作为输入输出7种猜词结果的分布。最后采取Bagging算法对多个BP神经网络进行集成通过硬投票机制得出最终预测结果降低预测结果的泛化误差。 第一问的模型还没建的时候建模哥就跟我说这个数据量太适合BP神经网络了。于是他在那边想办法搞定上一问我在这边炼丹。 后来引入背包算法的原因是不管怎么调单个神经网络输出的准确率都只有40%不到。看起来很离谱于是我们抓出来几次跑出来的结果发现预测不准的词汇相对来说并不固定也就是说纯纯是这个词本身的问题而不是变量抓的不准。 于是建模哥提出来投票一个网络预测不准就让一堆网络一起预测。 让100个神经网络投票以后误差依旧不太小但没之前那么离谱了。 还有一个小细节就是我们的训练集和测试集不是纯随机选的而是固定的前85%的数据作为总训练集。相当于用完全相同的数据训练出不同的网络。这样比随机抽的训练集误差更小一些。 其实最后结果也不是相当理想所以我们把每一个词汇的每一个猜词次数预测误差的分布具体拆开统计大部分误差其实都不大。最后得出来的结论是”我们对预测结果绝对误差不超过5%有80%以上的信心”。这写完以后我们仨都乐了确实不太像人话。但要是直接说绝对误差不超过20%那也显得我们做的太拉胯了。 最后这个ERRIE的结果分布我们仗着神经网络不可能完全复现预测了10次左右找最接近的几个值取了个平均。按照误差的统计分布来看这样基本拿到的结果就是准的了。 3.词汇难度分类模型 为了能对solution words进行合理的分类我们首先根据用户的猜词次数分布并基于K-Means聚类算法对难度进行划分。接着我们基于Pearson相关系数来探索单词属性与难度划分的关联构建了单词难度分类模型。最后按照此关联性对新的单词进行难度分类。 我们做到这一问的时候已经是最后一个中午了而且深度学习的结果刚出来还没有写文章。前面做的确实慢了一些。 刚开始我们也受了网上各种言论和b站那个大神的信息熵预测视频的影响本来打算用信息熵。当时我还开玩笑说这题纯纯给你们通信人出的。最开始我们捋出来一套解法拿动态规划进行的步骤模拟。 单词的不确定度来自于字母的不确定度和位置的不确定度。如果我们拿到绿色方框就可以一次性消除掉该位置和该字母的所有不确定性如果拿到黄色方框可以消除掉字母的不确定性只剩位置的不确定性如果拿到灰色方框则某个字母一定不会存在也可以消除掉一些不确定性。用动态规划的思想迭代最后拿到每次预测的难度。 大概是这么个想法后来没用这个的原因一个是太难了最后一个晚上了程序都不一定能写完更别说论文另一个原因是建模哥说的他说始终感觉C题是对数据的处理而不是对过程的追踪大概是这个意思。动态规划这种解法不像是用在这道题的。 其实当时我们觉得前两问的模型都很low一心想在第三问整个花活。确实也纠结了一下要不要用聚类分类总感觉太平庸了。最后还是选择了相信建模哥的直觉用的最简单的kmeans。 难度直接反映在猜词次数上于是我们通过猜词次数得到了四个聚类。聚类这样做没问题分类用什么向量的问题上我们也纠结过。我倾向于直接使用上一问预测的分布次数进行分类还能反过来证明第二问算出来的结果是对的建模哥觉得这个不是单词的本质属性只是外部表现而已应该用单词的属性来分类。 最后用相关系数把属性和猜词次数联系起来然后用属性分类。 对于未来的solution word而言我们可以通过计算它与各个典型样本的相似度判断其难度。由于我们在第6.2节中建立了对未来日期给定solution word的猜词次数分布预测模型所以我们对于词汇难度有两种判断依据。一种是基于预测的猜词次数分布一种是基于solution word的属性向量 。 其实单纯从得到的结果看直接用猜词次数分类的结果比这个要好一些但少一个Pearson系数模型而且变量不是单词本身属性这一点大概可能描述起来会有逻辑上的漏洞。     import pandas as pd import numpy as np import matplotlib.pyplot as pltdfpd.read_excel(Problem_C_Data_Wordle.xlsx,skiprows1) datadf[[Date,Number of reported results]]def secondaryExponentialSmoothingMethod(list, n_average, alpha,day): # 参数list为你要传入的时间序列n_average表示数列两端取多少个数(要取奇数)alpha为平滑系数day为向后预测的天数# 准备好解二元一次方程组的方法def fangChengZu(a1, b1, a2, b2, c1, c2):a np.array([[a1, b1], [a2, b2]])b np.array([c1, c2])x, y np.linalg.solve(a, b)return x, y# 取数列两端各n_average个值加以平均list_left list[0:n_average] # data中前n_average个值构成的listlist_right list[n_average 1:len(list)] # data中后n_average个值构成的listlist_left_average np.mean(list_left) # list_left包含元素的均值list_right_average np.mean(list_right)x1 (n_average 1) / 2x2 (len(list) - x1) 1# print(list_left_average,list_right_average)# 代入线性趋势方程,解出a1,b1a1, b1 fangChengZu(1, x1, 1, x2, list_left_average, list_right_average)# print(a1,b1)# 代入公式12解出S11,S12S11, S12 fangChengZu(2, -1, a1, b1, -b1, (alpha / (1 - alpha)))# print(S11,S12)a_tao 0 # 初始化b_tao 0for i in range(len(list)):S1 alpha * list[i] (1 - alpha) * S11S2 alpha * S1 (1 - alpha) * S12S11 S1S12 S2a_tao 2 * S1 - S2b_tao (alpha / (1 - alpha)) / (S1 - S2)H a_tao b_tao * day # 预测值return Hif __name__ __main__:data data[Number of reported results] # 时间序列prediction_day1 secondaryExponentialSmoothingMethod(data, 3, 0.5, 1) #预测下一天prediction_day2 secondaryExponentialSmoothingMethod(data, 3, 0.5, 53)#预测3.2号print(prediction_day2)plt.figure(figsize(25, 7)) plt.plot(data,colorb, labelOriginal) plt.plot(414,prediction_day2,colorc, labelPredict,marker) plt.show()
http://www.dnsts.com.cn/news/105817.html

相关文章:

  • 海南建设银行官方网站编写软件的软件
  • 三亚本地网站建设免费推广做产品的网站
  • 百度的企业网站如何自己创造一个网站平台
  • 芜湖营销型网站建设网站添加在线支付功能
  • 免费php网站网页设计个人网站作业
  • 惠州淘宝网站建设中国建设银行的网站色彩
  • 谷歌网站怎么设置才能打开网站兴宁区住房和城乡建设局网站
  • 兰州最好的网站开发公司学历提升机构的套路
  • 淄博百度网站做微信网站
  • 关于建设校园网站申请报告建造电商网站
  • 2023免费网站推广企业网站建设方案价位
  • 成熟的网站怎么做seo推广网站被k怎么办
  • 上杭县铁路建设办公室网站创意网站 案例 下载
  • 网站建设方案百度文库官方网站的域名
  • 百度验证网站类似站酷的网站建站
  • 推广型网站制作公司网站收录提交接口
  • 网站营销 海外图片网站 模板
  • 政务网站建设方案网架加工图
  • 网站开发好做还是平面好做aspcms网站地图模板
  • 如何手机网站建立网站建设的整体流程
  • 天津高端网站建设企业企腾做的网站怎么样
  • 网上商店网站设计帮人家做网站
  • 网站开发 需求说明书网页版qq怎么登录
  • 下载jsp网站开发用啥工具做网站一定需要主机吗
  • 免费网站建设seo酒店设计公司排名
  • 昆山网站建网站 企汇网
  • 厦门模板建站系统软件首页设计
  • 如何制作可以下单的网站辽阳专业建设网站公司电话号码
  • 遵义制作公司网站的公司惠州市seo上词
  • 呼伦贝尔北京网站建设高端设计图网站