当前位置: 首页 > news >正文

wordpress本地网站搭建整套课程国精产品w灬源码1688说明

wordpress本地网站搭建整套课程,国精产品w灬源码1688说明,最便宜的手机网站建设,网页设计网站含义系列文章目录 提示#xff1a;写完文章后#xff0c;目录可以自动生成#xff0c;如何生成可参考右边的帮助文档 文章目录 系列文章目录前奏例子硬币垃圾邮件代码 前奏 【机器学习】6 ——最大熵模型 例子 硬币 假设我们有一枚硬币#xff0c;可能是公平的#xff0c;…系列文章目录 提示写完文章后目录可以自动生成如何生成可参考右边的帮助文档 文章目录 系列文章目录前奏例子硬币垃圾邮件代码 前奏 【机器学习】6 ——最大熵模型 例子 硬币 假设我们有一枚硬币可能是公平的也可能是不公平的。我们的任务是估计硬币的正反面出现的概率。我们已知硬币有两个面正面H和反面T除此之外没有其他信息。因此我们希望在不引入不必要假设的情况下找到最合理的概率分布。 当我们没有任何关于硬币的额外信息时我们唯一知道的是硬币只有两个面H 和 T。基于最大熵原则我们希望选择最“随机”或最“均匀”的概率分布。在这种情况下最合理的分布是 P(H) 0.5 P(T) 0.5 这是因为熵的最大化意味着我们选择的是最不确定的分布即每种可能性是等概率的。 对于两个事件 H 和 T H( p)−[p(H)logp(H) p(T)logp(T)] 代入 P(H) 0.5 和 P(T) 0.5 H( p)−[0.5log0.50.5log0.5] −[0.5×(−1)0.5×(−1)]1 这是在没有任何其他信息时熵最大的分布表示正反面各有 50% 的概率。 假设我们现在有额外的信息例如在 10 次投掷中正面出现了 7 次反面出现了 3 次。我们不再假设正反面等概率。 我们需要在这个额外信息正面出现更多次和熵最大化之间找到平衡。最大熵模型会根据这个信息调整概率分布但仍然保持最大的熵。 约束条件正面出现的频率为 7/10即我们期望 E(H)0.7 拉格朗日乘数法我们引入拉格朗日乘数来最大化熵同时满足上述的约束条件。我们最大化以下目标函数 L ( p)−[p(H)logp(H)p(T)logp(T)]λ(p(H)−0.7) 通过求导并解方程可以得到新的概率分布 P(H)0.7 和 P(T)0.3这符合已知数据的约束条件同时尽量保持熵的最大化。 垃圾邮件 训练数据 假设我们有以下几封邮件并且每封邮件已经标注为垃圾邮件Spam或非垃圾邮件Not Spam 邮件1 (Spam): “Win a million dollars now” 邮件2 (Not Spam): “Meeting at 3 PM today” 邮件3 (Spam): “Congratulations! You have won a free gift” 邮件4 (Not Spam): “Project update attached” 特征提取 首先从每封邮件中提取特征即单词。在这个例子中我们的特征是邮件中的单词。例如 “Win”, “million”, “dollars”, “now”, “Meeting”, “project” 等等。 我们可以将每封邮件转化为一个包含特征的向量 邮件1[“Win”, “million”, “dollars”, “now”]邮件2[“Meeting”, “3”, “PM”, “today”]邮件3[“Congratulations”, “You”, “won”, “free”, “gift”]邮件4[“Project”, “update”, “attached”] 标签 邮件1 - Spam (1) 邮件2 - Not Spam (0) 邮件3 - Spam (1) 邮件4 - Not Spam (0) 最大熵模型的目标 模型的目标是根据训练数据估计每封邮件属于垃圾邮件Spam或非垃圾邮件Not Spam的概率。为了最大化模型的熵我们引入约束条件比如已知邮件中出现某些单词时其分类的概率。 训练过程 我们用最大熵模型来训练这些数据。模型根据邮件中的单词特征以及历史邮件的分类信息计算每个单词在垃圾邮件和非垃圾邮件中的条件概率。 如果win这个单词在训练集中大多数时候出现在垃圾邮件中模型会为win分配一个较高的垃圾邮件概率。 如果meeting这个单词大多数时候出现在非垃圾邮件中模型会为它分配一个较高的非垃圾邮件概率。 特征是独立的通常通过词袋模型Bag of Words或 TF-IDF词频-逆文档频率方法将文本转换为数值表示。在这个例子中特征提取可以使用词袋模型。对于每封邮件提取其中的单词并将其表示为一个向量。例如 邮件1“Win a million dollars now”转换为 [1, 0, 0, 1, 0…]其中每个位置代表一个单词的出现次数。 邮件2“Meeting at 3 PM today”转换为 [0, 1, 0, 0, 1…]同样代表单词出现的频率。 分类预测 当有一封新邮件出现时例如 “Free gift awaiting you”, 最大熵模型会计算它属于垃圾邮件和非垃圾邮件的概率 P(Spam | “Free gift awaiting you”) ? P(Not Spam | “Free gift awaiting you”) ? 代码 这个很简单复杂问题可能要考虑更多 from sklearn.feature_extraction.text import CountVectorizer from sklearn.linear_model import LogisticRegression# 训练样本数据 emails [Win a million dollars now, Meeting at 3 PM today,Congratulations! You have won a free gift, Project update attached]# 标签1表示垃圾邮件0表示非垃圾邮件 labels [1, 0, 1, 0]# 特征提取使用词袋模型 vectorizer CountVectorizer() X vectorizer.fit_transform(emails)# 最大熵模型近似使用逻辑回归实现 model LogisticRegression() model.fit(X, labels)# 测试新邮件 new_emails [Free gift awaiting you, Meeting tomorrow] X_new vectorizer.transform(new_emails)# 预测 predictions model.predict(X_new) print(预测结果:, predictions) # 输出预测类别1 表示垃圾邮件0 表示非垃圾邮件# 计算每类概率 probs model.predict_proba(X_new) print(分类概率:, probs) # 输出每封邮件属于垃圾邮件和非垃圾邮件的概率
http://www.dnsts.com.cn/news/258378.html

相关文章:

  • 拍拍网的网站建设优质手机网站建设
  • 无锡市建设招标网站wordpress有中文官方版
  • 潍坊高密网站建设wordpress 内容编码错误
  • 梧州推广网站服务商平面设计概述
  • 企业网站导航代码企业图册设计
  • 影响网站排名重要因素成都各公司网站
  • 企业怎样做网站怎么看一个网站是否被k
  • 手机编程教学广州网站排名优化价格
  • 个人域名备案 网站名称wordpress淘点金插件
  • 一个简单的游戏网站建设做货源网站可以赚钱吗
  • 商务网站建设的步骤做虚拟网站要花多少钱
  • 如何设计网站布局邢台专业做网站
  • 网站开发公司经营范围怎么写什么是移动网站开发
  • 福州市晋安区建设局网站国外图床 wordpress
  • 网站制作top怎么用手机网站做软件
  • 宠物网站建设报告网站建设互诺科技
  • 中国政务网站建设绩效评估wordpress如何做产品展示
  • 网站管理员工作总结教做蛋糕的网站
  • 微信 免费 网站wordpress 写php代码
  • 洛阳便宜网站建设费用wordpress 侧分类
  • 做甲方去哪个网站应聘wordpress 伪静态 分页
  • 一个域名下多个网站app编程
  • 网站的概念万网域名
  • wordpress 主题站怎样做带音乐的表白网站
  • 龙游县建设局网站wordpress更改注册
  • 广东网站建设公司网络服务域名注册网站建设网络实名
  • 网站运营技巧建网站程序怎么写
  • 免费解析素材网站汽车之家网站做的很烂
  • 响应式网站开发现状目前免费的h5制作软件
  • 杭州免费建站一级A做爰片安全网站