如何建设网站首页,做网站公司推荐,wordpress主题nova,jsp租房网站开发每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗#xff1f;订阅我们的简报#xff0c;深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会#xff0c;成为AI领… 每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗订阅我们的简报深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同从行业内部的深度分析和实用指南中受益。不要错过这个机会成为AI领域的领跑者。点击订阅与未来同行 订阅https://rengongzhineng.io/ Prometheus 2 是一款开源的语言模型经过优化能够评估其他语言模型的表现逐渐与 GPT-4 等商业模型相媲美。
这种评估方式为研究人员和开发者提供了客观的测量标准并能够针对模型的优缺点提供详细反馈以实现精准改进进而不断提升语言模型的质量与可靠性。
目前像 GPT-4 这样的专有模型通常被用于评估但因其封闭性、不易控制和价格高昂使许多人望而却步。韩国 KAIST AI 的金承元团队打造了 Prometheus 2旨在为大家提供透明、独立、详细的语言模型评估工具。
Prometheus 2 模仿人类和 GPT-4 等模型掌握了两种常用的评估方法直接评估使用评分量表打分和成对比较判断两个回答中哪个更优。
定制评估标准灵活应用
Prometheus 2 支持根据用户定义的标准进行评估不局限于“有用性”“无害性”等通用指标使其可以满足特定应用的优化需求。举例来说在医疗咨询聊天机器人领域它可以被用于考量“可信度”“共情力”和“专业准确度”等标准从而开发出适合不同应用场景的高质量语言模型。
新数据集与混合权重
为了训练 Prometheus 2研究团队创建了一个名为 “Preference Collection” 的全新成对比较数据集涵盖超过 1000 种不同的评估标准。最佳效果来自于两个独立模型的联合训练直接评分模型基于 Feedback Collection 数据集成对比较模型则基于 Preference Collection 数据集。通过将这两个模型的权重合并达到了最佳评估效果。
在包含四个直接评分数据集和四个成对比较数据集的测试中Prometheus 2 在所有可用的评估模型中显示出与人类判断和商业语言模型最为一致的结果。
虽然在许多测试中落后于 GPT-4 和 Claude 3 Opus但 Prometheus 2 成功缩小了与这些商业模型之间的差距。
公平与透明的评估工具
Prometheus 2 的代码与数据都已开放至 GitHub 上任何人都可以获取、使用。两种模型7B 和 8x7B可从 HuggingFace 获得。据团队称7B 模型的评估表现达到了 8x7B 模型的 80%可与 Mixtral-8x7B 相媲美甚至优于 Meta 的 Llama 2 70B。
Prometheus 2 让每个人都能独立、透明地评估语言模型推动了整个领域的公平性与可及性。
下载 GitHub - prometheus-eval/prometheus-eval: Evaluate your LLMs response with Prometheus