手机版网站建设开发,wordpress插件c++,购买空间网站哪个好,百度企业信用研究背景
当前的大型语言模型#xff08;LLM#xff09;如GPT-4等#xff0c;尽管在普通文本生成中表现出色#xff0c;但在创造性写作如小说、社交媒体内容等方面#xff0c;往往不能很好地模仿人类的写作风格。这些模型在训练和对齐阶段#xff0c;往往使用的是大规模…研究背景
当前的大型语言模型LLM如GPT-4等尽管在普通文本生成中表现出色但在创造性写作如小说、社交媒体内容等方面往往不能很好地模仿人类的写作风格。这些模型在训练和对齐阶段往往使用的是大规模的、质量较低的网络文本或机器生成文本这导致了模型生成的内容虽流畅但缺乏创造性和人类风格。
研究目标
Weaver模型系列旨在通过预训练和特定领域的对齐使LLMs在创意和专业写作方面表现得更加人性化和多样化。Weaver通过引入一系列新的数据合成和对齐方法使其能够生成更具创造性和符合人类风格的文本从而满足内容创作的多样需求。
相关工作
当前的LLMs在大规模网络数据上进行预训练通常使用由众包人员标注的数据进行对齐。然而这些模型往往在创意写作中表现不足。与之相比Weaver通过引入“Instruction Backtranslation”框架和Constitutional DPO算法显著提高了模型的写作能力。Weaver通过结合现有的先进技术如LLaMA的改进设计以及Rotary Embedding等进一步优化了模型的写作表现。
方法论
数据处理
Weaver模型使用了一种创新的数据合成框架用于在对齐阶段解锁模型的写作能力。首先通过对高质量故事、小说和文案的收集生成与写作任务相关的高质量指令-响应对。此外还采用了结合规则和机器学习的方法来过滤低质量文本以确保训练数据的高质量和多样性。 在SFT阶段收集了34个子领域和50万的指令-输出对 在偏好对齐阶段使用Constitutional DPO方法收集以下领域任务的dpo数据
解决方案
Instruction Backtranslation
【指令反向翻译】Instruction Backtranslation是一个核心方法用于合成高质量的训练数据以改进语言模型按照具体指令生成文本的能力。这个过程通过以下几个步骤实现
从专业写作者那里收集高质量内容首先从专业内容创建者如作家和编辑那里收集高质量的故事、小说章节、博客文章等内容。合成指令-响应对通过反向翻译框架将收集到的内容转化为指令-响应对。具体来说对于每个高质量的文本模型会生成一个与之对应的指令使得该文本可以作为这一指令的合理响应。扩展和多样化的指令生成该框架不仅重新生成已有指令还能创造新的指令以引导模型产生与原始文本风格或内容相符的新文本。这样做可以显著提高数据的多样性和覆盖范围。提高数据注释质量通过自动化的反向翻译过程减少人工注释的需求降低成本同时通过精确控制生成过程来提高注释数据的质量。
Constitutional DPO
提出Constitutional DPO算法用于模型偏好的优化。Constitutional DPO 是一种用于调整大型语言模型LLMs的新型方法旨在通过学习遵循专家定义的原则从而优化模型的输出质量。这种方法结合了几种现有技术的优势包括Constitutional AI、RLCDReinforcement Learning with Critic-Demonstrations、以及DPODirect Preference Optimization。此算法利用专家注释的原则来合成反例以此校准模型输出确保其遵循特定的写作原则和风格。 具体来说Constitutional DPO 通过以下步骤工作 1原则定义与注释首先邀请人类专家如专业作家、编辑为不同的写作任务注释原则。这些原则不仅包括简短的描述还包含一个遵循该原则的案例和一个违反该原则的案例以及解释为什么这些案例符合或违反原则的自然语言推理。 2负面示例生成在每个原则下基于高质量的文本样本使用语言模型如GPT生成与正面示例相对的负面示例。负面示例通过最小化修改原始响应来违反特定原则但不影响其他好的方面。这种方法生成的偏好数据噪声较少特别是在需要较高标准的写作领域中能够提供更加有原则性和针对性的学习信号。 3偏好数据优化利用生成的正负样本对作为 DPO 训练的输入数据对 (yw, yl)。通过这种方式每个数据对都包含了对应原则的关键训练信号有助于模型在微调过程中学习并遵循这些原则。
实验
能力体系设计
大类中类小类指令遵循领域小说写作指令遵循领域非小说创意性写作指令遵循领域营销写作指令遵循领域技术写作指令遵循任务内容编写指令遵循任务大纲编写指令遵循任务润色指令遵循任务风格转换指令遵循任务扩写/缩写指令遵循任务头脑风暴指令遵循任务文章审核指令标注--答案评估--RAG--Function call--
实验设计
数据方面
阶段量级备注Pretrain50B将小说数据即小说和故事和非小说数据即文章、论文、报告等混合在一起。它的比例是1 1。我们还将中文和英语数据与4 1的部分混合使Weaver同时支持中文和英语。Sft40wDPO2.5w
评价指标
Weaver模型在一个专门设计的创意写作基准测试WriteBench上进行了评估该测试覆盖了多种写作领域和任务包括小说写作、创意非小说写作、技术写作和市场营销写作用以全面评估模型的写作能力。 WriteBench 包含了超过1000条测试指令覆盖了上述多个写作领域。为了保证评估的公平性和客观性WriteBench 的数据收集和选择过程由一个独立的评估团队进行。这些测试指令被用于生成模型的输入提示并记录模型的输出以进行比较。
消融方面
主要选择了市面上比较有名的模型如GPT4、qwen等直接使用WriteBench中的相同指令作为所有被测试的llm的输入提示并收集模型输出作为响应。
实验结论
实验结果显示Weaver模型在所有大小配置上均优于现有的更大的通用LLM。特别是Weaver Ultra模型在多个创意写作场景中表现优异超过了GPT-4等先进模型。
参考资料
论文模型体验