婚恋网站,长安手机网站建设,兼职网站推广如何做,世界十大搜索引擎排名对齐#xff08;Alignment#xff09;#xff0c;是指大语言模型#xff08;LLM#xff09;与人类意图的一致性。换言之#xff0c;就是让LLM生成的结果更加符合人类的预期#xff0c;包括遵循人类的指令#xff0c;理解人类的意图#xff0c;进而能产生有帮助的回答等…对齐Alignment是指大语言模型LLM与人类意图的一致性。换言之就是让LLM生成的结果更加符合人类的预期包括遵循人类的指令理解人类的意图进而能产生有帮助的回答等。对齐是决定LLM能否在实际场景中得到真正应用的关键因素。因此评估模型的对齐水平显得至关重要 —— 如果没有评估我们就无法判断模型的优劣。
然而至今为止中文评测领域关于对齐的评测仍然是一片空白。当前广泛使用的一些评测数据集如 MMLUC-Eval 等与真实使用场景的差别较大不能有效评估模型的指令遵循能力。针对对齐水平的英文评测数据集如 MT-BenchAlpacaEval等受限于其语言、数量、评测方式也并不能有效评估中文大模型的对齐水平。考虑到以上因素以及实际的需求智谱清言团队推出了AlignBench。
论文https://arxiv.org/abs/2311.18743 数据、代码https://github.com/THUDM/AlignBench 项目网站LLMBench AlignBench是一个多维度、综合性的评测基准。目前来看这是第一个专为中文大模型设计能够在多维度上细致评测模型和人类意图对齐水平的评测基准。将 AlignBench 在评测数据和评测方法上与其他基准的对比情况总结如下 为了让开发人员能够更加高效地完成评估作者也开发了自动评估模型 CritiqueLLM 它是一个能够达到 GPT-4 95% 评估能力的专用的评测模型。可以在 AlignBench 网站上使用 CritiqueLLM 进行评测。
数据集
AlignBench 从 ChatGLM 真实的使用场景中构建经过初步构造敏感性筛查参考答案生成难度筛选等步骤构建了具有真实性、挑战性的评测数据集。AlignBench 构建了综合全面的分类体系分为 8 个大类。 评测方法
AlignBench 使用评分模型GPT-4CritiqueLLM为每个模型的回答打 1-10 的综合分数代表其回答质量。AlignBench 构建了多维度、规则校准的模型评测方法有效提升了模型评分和人类评分的一致性以及模型评价的质量。
1. 多维度AlignBench 针对每个种类定制了多个细分的评测维度如创造性、逻辑性等等。
2. 规则校准AlignBench 引入了细致的打分规则提升和人类的一致程度。
评测表明所提出的模型评测方法提高了和人类评分的一致性。在生成的分析上所提出的方法能够显著提高分析的质量。在对分析质量的成对评估中所提出的方法分别以 12.4% 和 20.40% 的胜负差显著胜出。
评测结果
使用 gpt-4-0613 和 CritiqueLLM 分别作为评分模型对 17 个中文大模型进行了评测结果分别如下。 结果表明
1. 中文大模型相比于 gpt-4在逻辑推理能力上差距较大。 2. 顶尖中文大模型相比于 gpt-4在中文相关能力尤其是中文理解类能取得相近甚至更好的表现。 3. 中文大模型的开源活力充沛顶尖开源模型对齐表现接近闭源模型已处于同一梯队。