当前位置: 首页 > news >正文

网站留言板html代码怎么建立一个网站?

网站留言板html代码,怎么建立一个网站?,肇庆市企业网站建设品牌,php mysql视频网站开发这篇文章介绍了BloombergGPT#xff0c;一个专门为金融领域设计的大语言模型#xff08;LLM#xff09;。以下是文章的主要内容总结#xff1a; 背景与动机#xff1a; 大语言模型#xff08;如GPT-3#xff09;在多个任务上表现出色#xff0c;但尚未有针对金融领域的…这篇文章介绍了BloombergGPT一个专门为金融领域设计的大语言模型LLM。以下是文章的主要内容总结 背景与动机 大语言模型如GPT-3在多个任务上表现出色但尚未有针对金融领域的专门模型。 金融领域的自然语言处理NLP任务复杂且术语独特需要领域特定的模型。 模型构建 BloombergGPT是一个500亿参数的模型结合了金融领域数据和通用数据。 训练数据包括3630亿token的金融数据来自Bloomberg的新闻、文件、社交媒体等和3450亿token的通用数据如The Pile、C4、Wikipedia。 使用Unigram分词器并采用ALiBi位置编码支持更长的序列推理。 训练与优化 模型基于BLOOM架构使用ZeRO优化和混合精度训练训练了约53天消耗了1.3M GPU小时。 训练过程中通过调整学习率和添加dropout来应对训练不稳定性。 评估与结果 在金融任务上BloombergGPT显著优于其他模型特别是在情感分析、命名实体识别NER和金融问答任务上。 在通用任务上BloombergGPT表现与更大的模型如BLOOM和GPT-3相当甚至在某些任务上超越它们。 模型在BIG-bench Hard、知识评估、阅读理解和语言任务上表现优异。 应用与示例 BloombergGPT可以生成Bloomberg查询语言BQL帮助用户更自然地与金融数据交互。 在新闻领域模型可以生成新闻标题辅助记者工作。 在金融问答任务中模型能够准确回答关于公司CEO等问题。 伦理与开放性 由于金融数据的敏感性模型未公开发布但作者分享了训练经验以帮助其他研究者。 讨论了模型在生成有害内容方面的潜在风险并强调了在金融领域应用中的伦理考虑。 未来工作 计划进一步研究模型在金融任务上的微调、减少偏见和毒性以及分词策略对模型性能的影响。 BloombergGPT是一个专门为金融领域设计的大语言模型结合了领域特定和通用数据在金融任务上表现出色同时在通用任务上也具有竞争力。文章详细介绍了模型的构建、训练、评估和应用并讨论了伦理和未来研究方向。这里是自己的论文阅读记录感兴趣的话可以参考一下如果需要阅读原文的话可以看这里如下所示 摘要 自然语言处理NLP在金融科技领域的应用广泛且复杂涵盖情感分析、命名实体识别、问答系统等任务。大语言模型LLMs在各种任务中表现出色然而目前尚未有专门针对金融领域的大语言模型被报道。本文介绍了BloombergGPT一个拥有500亿参数的语言模型该模型在广泛的金融数据上进行训练。我们基于彭博社的丰富数据源构建了一个包含3630亿个token的数据集这可能是迄今为止最大的领域特定数据集并辅以3450亿个token的通用数据集。我们在标准的LLM基准测试、开放的金融基准测试以及一系列内部基准测试上验证了BloombergGPT的性能这些内部基准测试最能反映我们的预期使用场景。我们的混合数据集训练使得模型在金融任务上显著优于现有模型同时在通用LLM基准测试上也不逊色。此外我们解释了模型选择、训练过程和评估方法并发布了训练日志附录C详细记录了我们在训练BloombergGPT过程中的经验。 目录 引言 1.1 BloombergGPT 1.2 更广泛的贡献 数据集 2.1 金融数据集3630亿token占训练的51.27% 2.1.1 网络数据2980亿token占训练的42.01% 2.1.2 新闻数据380亿token占训练的5.31% 2.1.3 公司文件140亿token占训练的2.04% 2.1.4 新闻稿90亿token占训练的1.21% 2.1.5 彭博数据50亿token占训练的0.70% 2.2 公共数据集3450亿token占训练的48.73% 2.2.1 The Pile1840亿token占训练的25.9% 2.2.2 C41380亿token占训练的19.48% 2.2.3 维基百科240亿token占训练的3.35% 2.3 分词 模型 3.1 架构 3.2 模型规模 3.3 训练配置 3.4 大规模优化 训练过程 评估 5.1 少样本方法 5.2 保留损失 5.3 金融任务 5.4 外部金融任务 5.5 内部任务情感分析 5.6 探索性任务命名实体识别 5.7 BIG-bench Hard 5.8 知识评估 5.9 阅读理解 5.10 语言任务 5.11 总结 相关工作 伦理、局限性与影响 7.1 伦理使用 7.2 开放性 结论 附录A 架构 附录B 外部金融任务细节 附录C 训练日志 1. 引言 2020年GPT-3的发布展示了训练超大规模自回归语言模型LLMs的强大优势。GPT-3拥有1750亿参数是前一代GPT-2模型的百倍规模并在多种流行的LLM任务中表现出色包括阅读理解、开放式问答和代码生成。这一性能在多个其他模型中得到了复现Chowdhery et al., 2022; Scao et al., 2022; Zhang et al., 2022。此外有证据表明大型模型表现出涌现行为随着模型规模的增加它们能够获得小型模型所不具备的能力Wei et al., 2022。一个显著的涌现行为是模型能够通过少样本提示few-shot prompting执行任务即模型仅需几个示例就能学会任务。随着语言模型规模的增加这种能力显著提升远超随机水平。总的来说少样本提示极大地扩展了模型支持的任务范围并降低了用户为新的语言任务寻求自动化的门槛。 在GPT-3之后模型的规模进一步增长达到了2800亿参数Gopher, Rae et al., 2021、5400亿参数PaLM, Chowdhery et al., 2022和1万亿参数Megatron, Korthikanti et al., 2022。研究还探索了实现高性能LLM的其他重要方面例如不同的训练目标Tay et al., 2022、多语言模型Scao et al., 2022、更高效的小型模型Black et al., 2022以及寻找数据和参数高效的训练规模Hoffmann et al., 2022。 这些努力几乎都集中在通用LLM上这些模型在涵盖广泛主题和领域的数据集上进行训练。虽然这些模型包括一些专门领域的数据集例如代码Chen et al., 2021或生物医学文章Gao et al., 2021但重点仍然是构建具有广泛能力的LLM。最近仅使用领域特定数据训练模型的尝试表明尽管这些模型规模较小但在这些领域内的任务上表现优于通用LLM例如科学Taylor et al., 2022和医学Bolton et al., 2023; Luo et al., 2022; Lehman et al., 2023。这些发现激励了进一步开发专注于特定领域的模型。 金融科技FinTech是一个庞大且不断增长的领域NLP技术在其中扮演着越来越重要的角色Xing et al., 2018; Fisher et al., 2016; Dredze et al., 2016。金融NLP任务Shah et al., 2022包括情感分析Araci, 2019、命名实体识别Salinas Alvarado et al., 2015、新闻分类Sinha and Khandait, 2020和问答系统Chen et al., 2021, 2022。虽然这些任务与通用NLP基准测试中的任务相似但金融领域的复杂性和术语要求一个领域特定的系统。由于生成式LLM在少样本学习、文本生成、对话系统等方面的吸引力拥有一个专注于金融领域的LLM将非常有价值。虽然已经有针对金融领域的掩码语言模型Araci, 2019但目前尚未有针对该领域任务进行调优或评估的LLM。 1.1 BloombergGPT 我们训练了BloombergGPT一个拥有500亿参数的语言模型支持金融行业内的广泛任务。我们没有构建一个通用LLM也没有完全依赖领域特定数据训练一个小型LLM而是采取了一种混合方法。通用模型涵盖多个领域能够在各种任务上表现出色并在训练时无需专门化。然而现有领域特定模型的结果表明通用模型无法完全替代它们。在彭博社我们支持大量且多样化的任务这些任务通常由通用模型处理但绝大多数应用属于金融领域更适合特定模型。因此我们着手构建一个在金融基准测试上表现最佳同时在通用LLM基准测试上保持竞争力的模型。 我们通过构建迄今为止最大的领域特定数据集来实现这一目标该数据集基于彭博社现有的数据创建、收集和整理资源。作为一家主要提供金融数据的公司彭博社的数据分析师在过去四十年中收集并整理了大量的金融语言文档。我们拥有广泛的金融数据档案涵盖了多个主题并仔细跟踪了数据来源和使用权限。我们将这些数据与公共数据集结合创建了一个包含超过7000亿个token的大型训练语料库。使用该语料库的一部分我们训练了一个基于BLOOM风格的500亿参数模型该模型的设计基于Hoffmann et al. (2022) 和 Le Scao et al. (2022) 的指导。我们在标准LLM基准测试、开放金融基准测试以及一系列彭博社内部基准测试上验证了该模型这些内部基准测试最能反映我们的预期使用场景。我们的结果表明混合训练方法使得模型在金融任务上大幅优于现有模型同时在通用NLP基准测试上表现相当或更好。 1.2 更广泛的贡献 除了构建一个用于金融数据的LLM外我们的目标是为更广泛的研究社区做出贡献。具体而言我们在本文中记录的经验为社区对文献中几个开放问题的理解提供了证据。 领域特定的大语言模型。现有的少数领域特定LLM要么完全在领域特定数据源上训练Luo et al., 2022; Bolton et al., 2023; Taylor et al., 2022要么将非常大的通用模型适配到领域特定任务Singhal et al., 2022; Lewkowycz et al., 2022。我们的替代方法——在领域特定和通用数据源上训练LLM——尚未被研究过。由此产生的模型在领域特定任务上表现非常出色同时在通用基准测试上保持了强大的性能。 训练数据。几乎所有语言模型都主要依赖于网络抓取的数据例如C4Raffel et al., 2020和The PileGao et al., 2021其中包括OpenWebText2。这些数据在使用前可能会以各种方式进行清理或子集化Touvron et al., 2023; Rae et al., 2020; Scao et al., 2022; Jernite et al., 2022但数据重复Carlini et al., 2020和有害语言的问题仍然存在Welbl et al., 2021。我们的训练数据在LLM训练中较为特殊因为它包含了大量来自可靠来源的经过整理和准备的数据。 评估。LLM评估仍然是一个具有挑战性且不断发展的领域Gehrmann et al., 2022; Goyal et al., 2022新的基准测试试图标准化跨模型的评估Liang et al., 2022; Srivastava et al., 2022。然而对于领域特定任务评估与实际使用场景之间仍然存在不匹配。评估基于可用的数据集而不一定基于模型在实际中的使用方式。我们提供了公共金融NLP基准测试Shah et al., 2022; Chen et al., 2021以及一系列彭博社内部任务的结果这些任务更符合我们的预期使用场景并直接评估了模型执行感兴趣任务的能力。 模型规模。早期的LLM在2000亿到4000亿token的语料库上进行单次训练Brown et al., 2020而Hoffmann et al. (2022) 提出模型训练不足转而专注于用更多数据训练较小的模型这一策略最近被Touvron et al. (2023) 采用。我们基于Hoffmann et al. (2022) 的指导选择了模型规模并在我们的语料库中选择了5690亿token来训练一个500亿参数的模型以产生一个与更大模型竞争的模型。 分词器。在组装训练数据后分词的关键步骤是将文本转换为适合语言模型的格式。这一步骤的重要性常常被忽视Mielke et al., 2021许多早期的LLM使用相同的分词器和词汇表这意味着我们几乎没有证据支持其他分词器。我们采取了不同的方法使用Unigram模型而不是基于贪婪合并的子词分词器因为它在推理时保存了概率允许更智能的分词Kudo, 2018。 模型构建挑战。GPT-3及后续模型是大型团队的成果需要大量的计算资源。最初复现这些结果的工作例如OPTZhang et al., 2022未能匹配原始模型的性能。随着每个后续模型的发布社区的理解、经验和软件工具不断增加。在开发BloombergGPT的过程中我们受益于BLOOM项目Scao et al., 2022中开发的现有代码这表明一个中等规模的团队可以在领域特定数据上生成一个具有竞争力的模型。我们详细描述了训练BloombergGPT的经验以支持未来的训练工作并解决上述每个问题。 2. 数据集 为了训练BloombergGPT我们构建了“FinPile”一个包含各种英文金融文档的综合数据集包括新闻、公司文件、新闻稿、网络抓取的金融文档以及从彭博社档案中提取的社交媒体内容。这些文档是通过我们的业务流程在过去二十年中获取的。我们将FinPile与广泛用于训练LLM的公共数据结合形成了一个训练语料库其中大约一半是领域特定文本另一半是通用文本。有关完整训练集的细分请参见表1。为了提高数据质量我们对每个数据集The Pile, C4, Wikipedia, FinPile进行了去重处理Lee et al., 2022a因此表1中报告的统计数据可能与其他论文中报告的不同。 2.1 金融数据集3630亿token占训练的51.27% 彭博终端在过去四十年中提供了对广泛的结构化和非结构化金融数据及分析的访问。在实现这一使命的过程中彭博分析师整理了一组金融文档这些文档要么是内部创建的要么是从外部来源获取的。我们利用这一广泛的经过整理和维护的文档集合来创建FinPile其中包括公司文件、金融新闻和其他与金融市场相关的数据。 FinPile中包含的一些文档如公司文件是公开的尽管收集这些文档并对其进行预处理以用于LLM训练并非易事。其他文档如部分彭博新闻必须购买。其余文档是私有的可以通过彭博终端访问。最后我们清理了这些数据去除了标记、特殊格式和模板。 需要注意的是FinPile中的每个文档都带有时间戳日期范围从2007年3月1日到2022年7月31日文档的质量和数量在这一时间范围内逐渐增加。虽然我们在这项工作中没有使用日期信息但我们计划在未来使用它例如评估模型在不同时间段的学习情况。虽然我们无法发布FinPile但我们在训练过程中使用的大型、精心整理和干净的领域特定数据集的经验可能会为社区提供有关构建金融LLM的优势和挑战的有益见解特别是构建领域特定模型的一般经验。我们在表2中提供了FinPile的细分和分析并在下面简要描述了包含的数据类型。 2.1.1 网络数据2980亿token占训练的42.01% 彭博社通过识别包含金融相关信息的网站来收集网络内容。虽然这一类别占据了FinPile的大部分但其分类较为粗略内容主要按网站域名的地理位置分类。在这些特定位置的来源中例如“美国”占总量的15.95%、“亚太”占总量的4.72%和“英国”占总量的1.98%文档类型高度多样化正如网络爬虫所预期的那样。虽然网络来源在现有的公共LLM训练数据集中很常见但彭博的网络爬虫专注于包含金融相关信息的高质量网站而不是对网络进行通用爬取。 2.1.2 新闻数据380亿token占训练的5.31% 新闻类别包括所有新闻来源不包括彭博记者撰写的新闻文章。总体而言FinPile中有数百个英文新闻来源包括“彭博电视新闻转录”占总量的0.41%这些是彭博电视新闻的转录。通常该数据集中的内容来自与金融社区相关的可靠新闻来源以保持事实性并减少偏见。 2.1.3 公司文件140亿token占训练的2.04% 公司文件是由公开公司编制并公开的财务报表。在一些国家如美国上市公司被要求定期编制并提交财务报表例如10-K年度报告和10-Q季度报告。在我们的数据集中大部分文件来自EDGAR这是美国证券交易委员会SEC的在线数据库占总量的1.90%。文件通常是包含表格和图表的PDF文档其中包含密集的财务信息这些信息在彭博社进行了处理和标准化。文件与通常用于训练LLM的文档类型有显著不同但包含对金融决策至关重要的信息。 2.1.4 新闻稿90亿token占训练的1.21% 新闻稿类别包含通常由公司发布的与财务相关的新闻稿。与文件一起新闻稿代表了公司的大部分公开沟通。然而与文件不同新闻稿在内容和风格上与新闻报道相似。 2.1.5 彭博数据50亿token占训练的0.70% 这一类别包括彭博撰写的新闻和其他文档如观点和分析。最大的来源是“彭博新闻”占总量的0.44%和“彭博第一手新闻”占总量的0.13%这是彭博撰写的实时新闻通讯。虽然彭博新闻涵盖了广泛的主题但通常专注于与金融社区相关的内容。该数据集包含长度不一的文档。 2.2 公共数据集3450亿token占训练的48.73% 我们在训练语料库中使用了三个广泛知名且可用的公共数据集。 2.2.1 The Pile1840亿token占训练的25.9% The PileGao et al., 2021是用于训练GPT-NeoBlack et al., 2021、GPT-JWang and Komatsuzaki, 2021和GPT-NeoX20BBlack et al., 2022的数据集。我们将The Pile包含在训练数据中原因如下。首先它已成功用于训练LLM。其次它经过了大量的数据清理和预处理。第三它包含多个领域我们相信这种多样化的数据将有助于模型对新领域的泛化甚至可能支持金融数据的训练。例如FreeLaw和GitHub等领域对彭博社处理法律文档和软件开发的团队非常有用。The Pile的创建者故意包含了重复内容重复因子与内容的感知质量成正比。然而由于我们对每个数据集进行了去重处理The Pile的规模显著减少。此外请注意我们的分词器§2.3是在The Pile上训练的。 2.2.2 C41380亿token占训练的19.48% Colossal Clean Crawled CorpusC4是用于训练LLM的常见数据集最初用于支持训练T5Raffel et al., 2020。尽管它与Pile-CC有重叠但C4的清理和处理方式不同因此我们认为将C4与The Pile一起包含可以增加价值而不仅仅是重复文档。我们发现C4包含高质量的自然语言文档这得益于多层次的清理尽管其他人注意到跨网站域的分布不寻常其中很大一部分数据来自专利Dodge et al., 2021。 2.2.3 维基百科240亿token占训练的3.35% The Pile和C4都包含过时的维基百科副本因此包含最新的维基百科页面可能有助于模型的事实性。因此我们包含了2022年7月1日的英文维基百科转储。该数据集的分词效率较低每个token 3.06个字符表明标记量高于平均水平这表明进一步的清理可能有助于未来的模型训练。 2.3 分词 我们选择了Unigram分词器Kudo, 2018而不是基于贪婪合并的子词分词器例如Byte Pair EncodingBPESennrich et al., 2016或WordpieceSchuster and Nakajima, 2012; Wu et al., 2016基于Kudo and Richardson (2018) 和 Bostrom and Durrett (2020) 的有希望的结果。遵循GPT-2Radford et al., 2019我们将数据视为字节序列而不是Unicode字符并将256个字节中的每一个作为token包含在内。 并行分词器训练。Unigram分词器的实现效率太低无法一次性处理整个Pile数据集因此我们使用拆分和合并的方法。我们将Pile中的22个领域中的每一个拆分为256个大小大致相等的块。然后我们在每个22×256总计5,632块上训练一个词汇量为65,5362^16的Unigram分词器。我们首先合并每个领域的256个分词器然后将22个结果分词器合并以获得最终的分词器。 Unigram分词器相当于token上的概率分布即单字语言模型我们通过对相应token的概率进行加权平均来合并分词器权重由用于训练分词器的数据的相对大小以字节为单位确定。结果是一个包含700万token的分词器。为了将词汇量减少到2^17个token我们丢弃了概率最小的token并重新归一化。为了确保我们不需要一个词汇表外的token我们还添加了36个256个可能中的未在The Pile中出现的字节作为token以及一个|endoftext| token。 选择词汇量大小时有各种考虑因素。对于LLM来说大词汇量的一个优势是更多的信息可以放入上下文窗口中。另一方面大词汇量也有开销更大比例的模型参数需要用于token嵌入。我们基于词汇量从25,000到550,000的实验选择了2^17个token的词汇量。对于每个词汇量大小我们对C4数据集进行分词并计算数据集的总大小以字节为单位其中每个token使用log2词汇量大小位表示。我们的启发式方法是选择导致C4编码表示最小的词汇量大小。这给了我们125,000的词汇量大小然后我们将其四舍五入到最接近的2的幂2^17或131,072个token。我们的分词器相对于标准词汇量大小约50,000个token较大。有关分词效率的分析请参见表3。 3. 模型 3.1 架构 我们的模型是一个基于BLOOMScao et al., 2022的解码器因果语言模型。我们概述了架构详细信息见附录A。 该模型包含70层Transformer解码器块定义如下 3.2 模型规模 大小。我们的模型大小基于Chinchilla缩放定律Hoffmann et al., 2022特别是他们的方法1和方法2。我们从40GB A100 GPU上的130万GPU小时的总计算预算开始。由于我们采用激活检查点来减少内存占用这导致每次迭代的额外成本为0.33×TFLOPs。为了考虑这一额外成本我们将0.75×130万代入Chinchilla方程而不是全额。 从Hoffmann et al. (2022) 中我们使用方法1和方法2的数据并对它们的对数版本拟合回归线。这给出了 这些计算表明我们的数据集约7000亿token对于给定计算预算的“Chinchilla最优”配置来说太小了假设只对数据进行一次遍历。虽然我们可以增加通用训练数据的数量但我们可用的领域特定训练数据有限。FinPile已经是最大的领域特定训练集之一我们不希望它占总训练数据的比例低于一半。 由于我们受到数据的限制我们选择了最大的模型同时确保我们可以在所有token上进行训练并保留总计算预算的30%作为缓冲以应对不可预见的故障、重试和重启。这导致我们选择了500亿参数的模型这也是我们计算预算的Chinchilla最优大小。图1总结了缩放定律并展示了BloombergGPT与其他模型的比较。 形状。为了确定如何将500亿参数分配给不同的模型组件即模型的“形状”我们遵循Levine et al. (2020) 的建议对于总自注意力层数L最优隐藏维度D通过以下公式获得 3.3 训练配置 训练。BloombergGPT是一个PyTorch模型使用标准的从左到右的因果语言建模目标进行训练。遵循Brown et al. (2020)我们希望所有训练序列的长度完全相同在我们的情况下为2048个token以最大化GPU利用率。为了实现这一点我们使用|endoftext| token作为文档分隔符将所有分词后的训练文档连接起来。然后我们将这个token序列分成2048个token的块。请注意使用这种方法每个训练序列可能包含来自不同领域的多个文档。此外由于我们使用ALIBi位置编码BloombergGPT在推理时可以应用于超过2048个token的序列。为了提高优化效率训练序列被分组为批次如下所述。 优化。我们使用AdamW优化器Loshchilov and Hutter, 2019。我们将β1​设置为0.9β2设置为0.95权重衰减设置为0.1。遵循Brown et al. (2020)我们将最大学习率设置为6e-5并使用余弦衰减学习率调度器进行线性预热。我们在前1800步中预热学习率。遵循Hoffmann et al. (2022)最终学习率是最大学习率的0.1倍即6e-6。我们还采用了批次大小预热Brown et al., 2020在前7200步中我们使用1024的批次大小210万token然后切换到2048的批次大小420万token进行剩余的训练。 训练不稳定性。LLM优化需要在极其复杂的非凸损失表面上运行凸优化算法。之前的工作报告了在训练LLM时的各种不稳定性。例如Chowdhery et al. (2022) 发现在训练PaLM时尽管启用了梯度裁剪损失仍然大约出现了20次峰值。他们通过从峰值开始前大约100步的检查点重新启动训练然后跳过200-500个数据批次来缓解这些问题。他们假设峰值是由于特定数据批次与特定模型参数状态的组合引起的。同样在OPT训练期间Zhang et al. (2022) 注意到梯度和激活范数的峰值或训练困惑度的发散。在这些行为之后他们降低了学习率这稳定了这些范数并允许训练继续。有趣的是Scao et al. (2022) 只报告了一次损失峰值模型自行恢复。 硬件堆栈。我们使用AWS提供的Amazon SageMaker服务来训练和评估BloombergGPT。我们使用训练时可用的最新版本并在总共64个p4d.24xlarge实例上进行训练。每个p4d.24xlarge实例有8个NVIDIA 40GB A100 GPU具有NVIDIA NVSwitch节点内连接600 GB/s和NVIDIA GPUDirect使用AWS Elastic Fabric AdapterEFA节点间连接400 Gb/s。这总共提供了512个40GB A100 GPU。为了快速访问数据我们使用Amazon FSX for Lustre它支持每TiB存储单元高达1000 MB/s的读写吞吐量。 3.4 大规模优化 为了训练BloombergGPT其内存占用超过了云实例上可用的GPU内存我们依赖于ZeRO优化的第3阶段Rajbhandari et al., 2020。我们使用AWS的专有SageMaker Model ParallelismSMP库该库支持将大型模型自动分布在多个GPU设备和实例上Karakus et al., 2021。在尝试了各种技术后我们平均实现了102 TFLOPs每个训练步骤需要32.5秒。我们发现以下设置在我们的训练中表现最佳。 ZeRO优化第3阶段。ZeRO将训练状态模型参数、梯度和优化器状态分片到一组GPU上。我们将模型分片到128个GPU上并且在训练期间有4个模型副本。 MiCS。Zhang et al. (2022b) 减少了云训练集群的训练通信开销和内存需求。MiCS包括分层通信、2跳梯度更新、规模感知模型分区等功能。 激活检查点。Chen et al. (2016) 通过删除激活来最小化训练内存消耗代价是在反向传递期间进行额外的计算。当启用激活检查点时在正向传递后仅保留层输入和输出而任何中间张量都从内存中丢弃。在反向传递期间这些中间张量可能会被重新计算。我们对每个Transformer层应用激活检查点。 混合精度训练。为了减少内存需求正向和反向传递在BF16中完成而参数以全精度FP32存储和更新。ALiBi矩阵以全精度计算并以BF16存储。我们还使用FP32计算Attention块中的融合softmax并将其结果存储在BF16中。最后损失函数中的softmax计算在FP32中完成。 融合内核。另一种优化可能性是将多个操作组合成单个GPU操作。这既可以减少计算图中的中间结果的峰值内存使用也有助于提高速度。类似于Megatron-LMShoeybi et al., 2019我们在SMP的自注意力模块中使用了一个掩码因果softmax融合内核。在实践中我们观察到速度提高了4-5 TFLOPs并避免了给定其余配置的内存不足错误。 4. 训练过程 训练BloombergGPT的过程涉及基于模型训练进展的决策。我们分享了一些这一过程的亮点。详细描述见训练日志附录C。图2显示了训练和验证集的学习曲线。实线显示平滑的训练损失虚线显示保留验证集上的损失。线条颜色的变化表示优化超参数配置的变化无论是按计划还是响应验证损失的增加或停滞。该图显示了成功模型训练运行的路径。为了呈现清晰的图表图中未显示其他尝试的不同模型配置、回滚后覆盖的部分运行或未在最终模型中使用的其他训练策略。 我们总共训练了139,200步约53天并在完成训练数据的约80%后结束了模型训练5690亿token总共有7090亿token。我们提前结束了训练因为保留开发集上的损失不再改善尽管更长的训练可能会带来进一步的改进。 我们在前7200步中使用1024的预热批次大小之后切换到2048的常规批次大小颜色从黑色变为蓝色。批次大小的变化在7200步时表现为验证损失的明显曲率变化。大多数剩余的训练表现稳定训练和验证损失逐渐减少。在后期阶段即115,500步之后我们观察到验证损失持平或增加因此需要进行干预。我们依次应用了以下纠正修改 第115,500步蓝色到橙色将学习率缩小到三分之二 第129,900步橙色到绿色将学习率减半并添加dropout概率为0.1 第137,100步绿色到红色再次将学习率减半 我们在146,000步时结束了运行基于验证损失缺乏可观察的进展。我们选择了139,200步的检查点作为最终模型基于验证损失和下游评估。 5. 评估 我们在两大类任务上评估了BloombergGPT的性能金融特定任务和通用任务。金融特定任务帮助我们测试了在高质量金融特定数据上训练是否会在金融任务上产生更好结果的假设。通用任务调查了我们的模型性能是否与之前发布的结果直接可比。对于金融任务我们组装了公开可用的金融数据集其中包括一系列NLP任务。然后为了直接测试BloombergGPT在彭博社感兴趣任务上的能力我们还包含了一系列从彭博社内部高质量评估集中提取的任务用于情感分析和命名实体识别。对于通用任务我们从多个现有基准测试中提取结果并将结果分为以下几类BIG-bench Hard、知识评估、阅读理解和语言任务。每类任务的数量和组的定义见表5。 我们根据模型大小、训练数据类型、整体性能以及最重要的访问权限将BloombergGPT与三个最接近的模型进行了比较。表6提供了模型大小和计算的概述。 GPT-NeoXBlack et al., 2022根据Liang et al. (2022)该模型是500亿参数以下表现最好的可用模型。 OPT66B​Zhang et al., 2022我们选择与OPT66B66B​进行比较因为我们的模型大小和结构大致匹配尽管我们的模型更小。 BLOOM176BScao et al., 2022虽然该模型比BloombergGPT大得多但我们使用相同的模型架构和软件堆栈。我们注意到BLOOM176B176B​是多语言的因此虽然它更大但它也训练了更多语言的数据。 所有三个模型都使用了一些我们在训练语料库中使用的通用数据集。我们还报告了原始GPT-3Brown et al., 2020的外部可用结果。 我们更倾向于自己运行模型以确保相同的评估设置并将任何由他人报告且未由我们运行的结果放入一个单独的组中。为了公平比较模型我们避免任何提示调优和其他可能导致某些模型改进结果的技术。因此每个任务都通过“标准”提示进行测试见表7即不改变底层模型的任何参数没有任务描述也没有Chain-of-Thought提示Wei et al., 2022b。呈现给模型的少样本示例数量取决于任务我们在相应部分中包含了这些细节。对于每组结果我们进一步呈现了类似于Liang et al. (2022) 的胜率表示在所有模型对之间的个体任务比较中“获胜”的比例。 5.1 少样本方法 对于给定一组候选答案的任务我们执行基于似然的分类遵循Brown et al. (2020)。我们考虑三种分类方法常规、校准和归一化。正式定义为 其中α是候选答案s是上下文len测量子词token的数量。我们报告每个模型和任务的最佳方法的性能。对于其他任务我们通过贪婪解码生成。 我们使用官方拆分并在可能的情况下报告测试集上的性能。如果测试标签不公开我们报告开发集上的性能。如果数据集的官方拆分不存在我们通过选择20%的示例作为测试集其余作为训练集来创建训练和测试拆分。所有少样本上下文示例都从训练集中采样。为了减少少样本评估的方差我们为每个测试示例采样不同的少样本除非另有说明。为了保持一致性对于每个测试示例所有模型在我们的评估中都有相同的输入形式。 5.2 保留损失 我们首先测试BloombergGPT如何建模金融数据的语言分布。我们评估了不同模型在包含FinPile所有部分的保留数据集上的每字节比特数。为了限制数据泄漏并更好地模拟LLM的实际使用我们选择了一个时间上保留的数据集该数据集严格在训练集之后并在训练集和保留集之间进行去重。在评估过程中对于超过2048个token的文档我们使用半窗口大小的滑动窗口方法作为上下文。这意味着任何超过前2048个token的token在预测时至少有1024个token作为上下文。我们按FinPile中的文档类型报告损失细分。 图3显示BloombergGPT始终优于其他模型。虽然这是预期的并且主要作为健全性检查但它也提供了有关其他模型泛化能力的宝贵见解。例如BloombergGPT与Filings类别的差距最大可能是因为这些文档虽然是公开的但通常以PDF格式存在因此未包含在任何现有数据集中。 5.3 金融任务 金融中最常考虑的NLP任务在更广泛的NLP文献中也很常见但是这些任务在金融数据上执行时具有不同的特征和挑战。以情感分析为例标题如“公司将裁员10,000人”在一般意义上表现出负面情感但在某些情况下可能被视为对公司金融情感的正面因为它可能导致股价或投资者信心上升。我们使用公共和内部基准测试的组合来评估BloombergGPT、BLOOM176B、GPT-NeoX和OPT66​B的性能。所有考虑的任务类型及其相应的提示模板见表7。 5.3.1 外部金融任务 我们的公共金融基准测试包括来自FLUE基准测试Shah et al., 2022的四个任务和ConvFinQA数据集Chen et al., 2022。由于大多数这些金融任务的LLM性能尚未广泛报告因此没有标准的测试框架。因此我们将它们适应于少样本设置见§5.1。我们设计实验的指导原则是选择少样本数量使得所有模型的平均性能最佳。虽然这些任务的非LLM自定义模型的数字可用但由于评估设置的差异我们在此省略报告。因此我们的声明仅限于LLM之间的比较。我们评估了以下任务更多细节见附录B FPBMalo et al., 2014金融短语库数据集包括对金融新闻句子的情感分类任务。任何可能对投资者有利/不利的新闻被视为正面/负面否则为中性。我们创建了自己的拆分并在5-shot设置中报告按支持加权的F1分数。 FiQA SAMaia et al., 2018第二个情感分析任务是预测英文金融新闻和微博标题中的方面特定情感这些数据作为2018年金融问答和意见挖掘挑战的一部分发布。虽然原始数据集在连续尺度上标注但我们将数据离散化为分类设置包括负面、中性和正面类别。与FPB一样我们创建了自己的拆分包括微博和新闻并使用5-shot设置报告加权F1。 HeadlineSinha and Khandait, 2020这是一个二元分类任务判断黄金商品领域的新闻标题是否包含某些信息。这个人工标注的数据集包含关于“黄金”的英文新闻标题。每个新闻文章携带以下标签的子集“价格或否”、“价格上涨”、“价格下跌”、“价格稳定”、“过去价格”、“未来价格”、“过去一般”、“未来一般”、“资产比较”。我们使用官方文档将每个标签转化为问题使用5-shot并报告所有类别的平均加权F1分数。 NERSalinas Alvarado et al., 2015这是一个命名实体识别任务数据来自为信用风险评估从提交给SEC的金融协议中收集的金融数据。标注的实体类型遵循标准CoNLL格式Tjong Kim Sang and De Meulder, 2003并标注为PER、LOC、ORG和MISC。由于在少样本设置中学习预测空输出非易事我们删除了不包含任何实体的句子。由于MISC标签的定义模糊我们进一步删除了MISC标签。所有模型都需要更多的少样本才能表现良好因此我们选择了20-shot并报告实体级别的F1分数。 ConvFinQAChen et al., 2022给定来自SP 500收益报告的输入包括文本和至少一个包含财务数据的表格任务是回答需要对输入进行数值推理的对话问题。该任务需要数值推理、对结构化数据和金融概念的理解并且模型需要将后续问题与对话轮次相关联。 对于ConvFinQA我们使用整个黄金对话及其上下文作为模型的输入。随着对话的每一“轮”结束该“轮”及其答案被附加为未来轮次的上下文。我们报告公共开发集上的精确匹配准确率。 BloombergGPT在五个任务中的四个ConvFinQA、FiQA SA、FPB和Headline中表现最佳在NER中排名第二表8。因此BloombergGPT在我们测试的所有模型中胜率最高。与同等大小的模型相比ConvFinQA的差距尤其明显该任务由于需要使用对话输入对表格进行推理并生成答案而具有挑战性。 5.3.2 内部任务情感分析 对于彭博社内部任务我们考虑了方面特定的情感分析这在金融文献中很常见。我们使用的所有数据集都是英文的。 我们的标注过程包括一个发现阶段在此期间我们建立标注和采样程序了解每个示例通常需要多少标注者并确定标注者所需的培训水平Tseng et al., 2020。根据任务的复杂性我们的标注者是彭博社的金融专家团队、顾问工作者或两者的组合。在每种情况下平局由额外的标注者裁决模糊示例被排除。本节中的所有数据集都由2个标注者标注第三个标注者打破任何平局。 我们使用与外部数据集类似的五样本评估来测量LLM在内部数据集上的性能。由于数据集很大我们随机抽样最多1k个测试示例。我们报告按每个标签的支持加权的F1。请注意与外部数据集类似我们内部数据集中使用的未标记版本可能出现在FinPile中因此在训练期间被BloombergGPT看到。然而由于FinPile的一部分也可在网上获得我们比较的其他LLM可能也在未标记版本上进行了训练。数据集统计信息见表9。 股票新闻情感该任务是预测新闻故事中对公司的方面特定情感。数据集包括来自彭博社、高级内容和网络内容的英文新闻故事。标注为“正面”、“负面”或“中性”表示新闻故事可能会增加、减少或不改变公司的长期投资者信心。 股票社交媒体情感该任务类似于“股票新闻情感”但我们使用与财务相关的英文社交媒体内容而不是新闻。 股票转录情感该任务也类似于“股票新闻情感”但我们使用公司新闻发布会的转录而不是新闻。转录通过语音识别提供有时经过人工编辑。长转录被分块处理我们数据集中的每个块通常包含70到80个token。 ES新闻情感虽然该任务是预测新闻故事中对公司方面的方面特定情感但目标不是表明对投资者信心的影响。如果新闻故事包含反映公司环境和社会政策的好、坏或中性新闻的内容则故事被标注为“正面”、“负面”或“中性”。 国家新闻情感该任务与其他情感任务不同目标是预测新闻故事中对国家的情感。数据集包括来自彭博社、高级内容和网络内容的英文新闻故事。如果新闻故事暗示该国经济的增长、收缩或现状则故事被标注为“正面”、“负面”或“中性”。 表10显示在四个内部方面特定情感任务中BloombergGPT的表现优于所有其他测试模型且优势显著。唯一一个模型表现相似的任务是社交媒体情感任务而BloombergGPT在其他三个任务中比其他模型至少高出25分最高超过60分。 5.3.3 探索性任务NER 尽管NER是一个成熟的NLP任务使用BERTWu and Dredze, 2019; Luoma and Pyysalo, 2020和T5Liu et al., 2022风格的模型已经取得了最先进的结果但生成式LLM的NER在很大程度上仍是一个未探索的任务。NER不在HELMLiang et al., 2022中BIG-benchSrivastava et al., 2022中只有一个波兰语任务我们研究的LLM论文中也没有报告NER性能。因此我们考虑NER作为一个探索性任务并报告初步的NER结果因为它在金融领域非常重要。 NER对于生成式LLM来说可能是一个困难的任务原因有几个。NER是一个信息抽取任务更适合编码器-解码器或仅编码器的架构。生成式LLM的生成特性在NER任务上并没有优势。我们发现与其它任务相比NER需要大量的提示工程和更多的示例才能获得合理的结果。金融领域的NER具有一些细微差别这使得零样本或少样本学习尤其困难。 例如考虑以下虚构的标题“Bloomberg马斯克先生为Twitter添加了新功能并评论了中国”。根据我们的标注指南和下游任务需求a报道的新闻机构“Bloomberg”可以被标注或不标注这取决于我们是否只关注重要实体b“马斯克先生”或仅“马斯克”可以被标注为PER人物c“Twitter”可以被标注为ORG组织或PRD产品因为新功能是添加到Twitter产品而不是组织d“中国”可以被标注为ORG或LOC地点尽管正确的标注可能是ORG。如果没有在提示中添加详细的标注指南LLM将无法知道预期的标注行为。 基于初步测试我们确定了以下设置以便在所有模型的内部NER任务上获得最佳表现。首先我们将预测的实体类型限制为ORG、PER和LOC。总共过滤掉了不到1%的实体。我们还删除了所有不包含实体的文档即所有“O”标签。这些修改旨在增加少样本提示中所见示例的有用性。我们预计进一步研究NER的提示工程可能会产生更好的结果。 我们考虑了来自不同领域的七个Bloomberg内部NER数据集 BN NER这是一个命名实体识别任务识别2017年至2020年间出现在Bloomberg新闻长文“BN wire”中的实体。 BFW NER类似于“BN NER”但我们使用的是2018年至2020年间来自“Bloomberg First Word”短文的实体。 Filings NER该任务的目标是识别公司提交的强制性财务披露文件中出现的实体。数据集包含2016年至2019年间的文件样本。 Headlines NER该任务的目标是识别Bloomberg新闻英文标题中出现的实体。数据集包含2016年至2020年间的标题样本。 Premium NER该任务的目标是识别Bloomberg收录的第三方英文新闻内容子集中出现的实体。数据集包含2019年至2021年间的新闻样本。 Transcripts NER该任务的目标是识别公司新闻发布会转录稿中出现的实体。数据集包含2019年至2020年间的转录稿样本。 Social Media NER该任务的目标是识别与金融相关的英文社交媒体内容中出现的实体。数据集包含2009年至2020年间的社交媒体内容样本。 由于我们的数据集规模较大我们从每个过滤后的内部数据集中随机抽取了4,000个训练样本和500个测试样本。我们使用20-shot提示进行评估并使用F1分数作为评估指标。内部NER任务的结果好坏参半表12。更大的BLOOM176​B在大多数NER任务中表现最好。在同等规模的模型中BloombergGPT表现最佳一次排名第一Headlines四次排名第二BN、Premium、Transcripts、Social Media一次排名第三BFW一次排名最后Filings。 探索性任务NERNED 命名实体消歧NED将文本中提到的实体链接到知识库或其他结构化信息源中的已知实体。在金融领域我们试图将文本中提到的公司链接到其股票代码即唯一标识特定股票市场上某只股票的缩写。 我们通过评估联合NERNED任务直接测试LLM完成此任务的能力识别文档中提到的公司的股票代码。这要求模型首先识别公司提及然后生成相应的股票代码。例如给定“AAPL宣布他们将在未来产品中停止使用英特尔芯片”正确的NER输出应为“AAPL, Intel”而正确的NERNED输出应为“AAPL, INTC”。 该任务的一个优势在于它对提取确切文本跨度的变化具有鲁棒性。虽然NER评估需要精确匹配但股票代码可以在不首先识别跨度的情况下成功生成。此外它还评估了模型对公司、其各种表面形式以及公司与股票代码映射的了解。 我们通过运行最先进的实体链接系统来创建此任务的评估数据该系统用于金融数据中的公司实体覆盖每个领域的Bloomberg内部NER标注文档。我们删除了没有链接股票代码的文档。按照我们的NER评估方法我们从每个过滤后的内部数据集中随机抽取了4,000个训练样本和500个测试样本。我们使用20-shot提示进行评估并使用F1分数作为评估指标。 表12显示BloombergGPT在所有模型中表现最佳除了在社交媒体数据上它仅次于BLOOM176​B。在我们的社交媒体数据中公司通常通过其股票代码被提及这消除了模型链接提及的要求并将任务还原为NER。这些结果进一步凸显了BloombergGPT在金融任务上的优势。 5.4 BIG-bench Hard 我们现在转向评估BloombergGPT在标准的通用自然语言处理任务上的表现。虽然我们模型的重点是金融任务但包含通用训练数据可能不仅有助于提高金融任务的表现还能使我们的模型在更标准的自然语言处理数据集上表现良好。我们从BIG-bench HardSuzgun等2022开始这是BIG-benchSrivastava等2022中最具挑战性的任务子集。它只包括在构建时最佳可用模型无法通过标准提示技术达到高于人类平均表现的任务。 5.5 知识评估 接下来我们通过模型在没有提供额外上下文或资源的情况下回答问题闭卷问答的场景来评估知识。这包括多项选择题我们报告准确率。我们遵循Brown等2020的模板。场景列表如下 ARCClark等2018从三年级到九年级的科学考试中收集的多项选择题包括简单和具有挑战性的部分。 CommonsenseQATalmor等2019需要不同类型常识知识的多项选择题问答数据集。 MMLUHendrycks等2021在57个学科中手动收集的多项选择题知识问题。 PhysicalQAPiQABisk等2020关于物理世界如何运作的问题。 5.6 阅读理解 我们将阅读理解基准定义为模型可以根据输入文本中包含的信息生成正确答案的任务。我们的分组包括开卷问答任务与Brown等2020不同他们将开卷问答任务分为不同的类别。我们遵循Brown等2020的模板并报告准确率。我们包括以下任务 BoolQClark等2019关于维基百科段落的Yes/No问题。 OpenBookQAMihaylov等2018给定一本科学事实书应用于新情境的多项选择题涉及小学水平的科学问题。 RACELai等2017来自中学和高中英语考试的多项选择题数据集。 Multi-Sentence Reading ComprehensionMultiRCKhashabi等2018短段落和多句子问题。 Reading Comprehension with Commonsense ReasoningReCoRDZhang等2018关于CNN和每日邮报新闻文章的自动生成问题。 表16反映了与上述评估类似的排名虽然GPT-3表现最佳但BloombergGPT紧随其后。除了OpenBookQABloombergGPT在BLOOM176​B、GPT-NeoX和OPT66​B中表现最佳。令人惊讶的是BLOOM176​B在这一类别中表现显著落后。 5.7 语言任务 我们将语言任务定义为那些不直接与面向用户的应用相关的场景。这些任务评估了模型的消歧、语法或蕴含理解能力。这些任务旨在直接评估模型对语言的理解能力。我们遵循Brown等2020的模板并报告准确率。任务列表如下 Recognizing Textual EntailmentRTEDagan等2007Haim等2006Giampiccolo等2007Bentivogli等2009给定两个文本片段识别其中一个文本的含义是否蕴含在另一个文本中。 Adversarial NLIANLINie等2020对抗性构建的蕴含检测任务。 CommitmentBankCBDe Marneffe等2019自然发生的语篇其最后一句包含一个从句嵌入谓词。 Choice of Plausible AlternativesCOPAGordon等2011给定一个前提和两个备选方案任务是选择与前提具有更合理因果关系的备选方案。 Words in ContextWICPilehvar和Camacho-Collados2019确定一个词在两个句子中是否具有相同的含义。 WinogradLevesque等2011当代词在语义上明确时确定代词所指的单词。 WinograndeSakaguchi等2019对抗性挖掘的具有挑战性的Winograd示例。 HellaSWAGZellers等2019选择故事或指令集的最佳结尾。 StoryClozeMostafazadeh等2016为五句话长的故事选择正确的结尾句子。 结果表17显示语言任务的结果与知识类别类似。BloombergGPT略微落后于GPT-3但优于其他模型。与阅读理解类别类似BLOOM176​B落后于BloombergGPT。 5.8 总结 在数十个任务和多个基准测试中一个清晰的画面浮现出来。在我们比较的数十亿参数模型中BloombergGPT表现最佳。此外在某些情况下它的表现与更大的模型数百亿参数相当甚至超越。虽然我们的目标是让BloombergGPT成为金融任务中的顶尖模型并且我们包含了通用训练数据以支持特定领域的训练但该模型在通用数据上的能力仍然超过了同等规模的模型在某些情况下甚至与更大的模型相当或超越。 6. 定性样本 我们现在分享一些来自我们模型的定性示例以突出我们领域专业化的优势。 生成Bloomberg查询语言。 BloombergGPT的一个用例是使与金融数据的交互更加自然。现有的数据检索方式是通过Bloomberg查询语言BQL。BQL可以用于与不同类别的证券进行交互每个类别都有其自己的字段、函数和参数。BQL是一个非常强大但复杂的工具。如图4所示BloombergGPT可以通过将自然语言查询转换为有效的BQL来使BQL更加易于使用。 新闻标题建议。 其他用例在新闻领域得到了很好的支持。由于它训练了许多新闻文章它可以用于许多新闻应用并协助记者完成日常工作。例如在构建新闻简报时记者可能需要为每个新部分撰写简短的标题。虽然维护一个专门用于此任务的模型可能成本过高但BloombergGPT开箱即用表现良好图5。 金融问答。 由于金融领域训练数据的存在我们能够查询BloombergGPT以获取与金融世界相关的知识。例如它在识别公司CEO方面表现良好。图6展示了几个示例包括来自其他模型的输出。虽然BloombergGPT正确识别了CEO但GPT-NeoX没有而FLAN-T5-XXL完全失败始终忽略了公司名称。 7. 相关工作 大语言模型。 大语言模型LLM是自然语言处理NLP领域的一个重要研究方向。早期的语言模型基于n-gramBrown等1992和循环神经网络Mikolov等2010Sutskever等2011。随着Transformer架构的引入Vaswani等2017语言模型的规模和性能得到了显著提升。Radford等2018展示了使用自回归语言建模目标进行预训练的模型在迁移学习中表现出色。Radford等2019进一步表明扩大模型规模和训练数据可以使得自回归语言模型在不同的下游任务中表现良好而无需任何额外的监督微调。 Brown等2020表明进一步扩大模型规模会导致新模型能力的出现并提高模型的鲁棒性。自Brown等2020发布GPT-3以来许多其他研究人员构建了大语言模型以研究数据量、数据质量、网络架构、参数规模、数据规模、分词和开源策略Raffel等2020Zhang等2022aBlack等2022Rae等2021Hoffmann等2022Chowdhery等2022Lieber等2021Zeng等2022Tafjord和Clark2021Smith等2022Scao等2022Taylor等2022Lin等2022Soltan等2022。 领域特定的大语言模型。 领域特定训练对于掩码仅编码器语言模型的价值已经得到广泛认可。常见的做法是在领域特定数据上从头训练BERT模型Devlin等2019或在现有模型上继续预训练新的领域特定数据Gururangan等2020。遵循这些策略BioBERTLee等2020将BERT适应于生物医学领域SciBERT则在科学出版物上进行训练Beltagy等2019。这些论文的结果表明领域内训练使得模型在各种生物医学文本挖掘任务中优于之前的最先进模型。进一步的例子包括用于临床领域的ClinicalBERTHuang等2019、用于科学生物医学论文的BioMedRoBERTaGururangan等2020以及用于Twitter数据的BERTweet和BerniceNguyen等2020DeLucia等2022。 由于训练超过100亿参数的自回归仅解码器语言模型的成本显著高于训练不到10亿参数的掩码语言模型因此领域特定的自回归模型的例子较少。然而现有的方法遵循相同的两种策略。适应现有模型medPaLMSinghal等2022将PaLM适应于生物医学领域MinervaLewkowycz等2022则适应于数学推理任务。 最近出现了一些从头训练的仅解码器模型用于领域特定数据。一个流行的领域是蛋白质序列因为它们可以用类似语言的序列表示但不被自然语言模型覆盖例如Lin等2022Xiao等2021Nijkamp等2022。然而即使对于自然语言领域的模型也可能有好处。Galactica是在大量科学数据集上训练的并包括处理科学符号的特殊处理Taylor等2022。虽然在科学任务上表现非常出色但Galactica在更标准的自然语言处理任务上也表现出色。BioGPTLuo等2022和BioMedLMBolton等2023都是在生物医学数据上训练的较小的GPT风格模型。Lehman等2023比较了在领域特定数据上训练的编码器/解码器模型与从通用训练中适应的模型。研究大生成语言对话模型的研究人员也得出了关于使用领域特定训练数据的好处的类似结论Zhang等2020Roller等2021Thoppilan等2022。 这些发现突显了领域内预训练的优势尤其是在有足够数据的情况下正如我们的情况一样。受Galactica的通用能力的启发我们使用公共数据增强了我们的私有数据目的是研究模型是否可以在不牺牲通用领域性能的情况下获得领域内能力。 训练数据。 大规模原始文本数据语料库对于训练LLM至关重要。因此现在有几个可用的语料库涵盖了广泛的来源。 Colossal Clean Crawled CorpusC4Raffel等2020从Common Crawl中提取数据创建了一个经过处理的训练语料库。The Pile是一个精心策划的语料库包含了广泛的数据来源Gao等2021。这些数据集基于或包括网络爬取数据OpenWebText2并增加了来自高质量来源的数据PubmedArxiv。各种努力旨在清理数据集特别是网络数据通过删除不需要或有害的文本Touvron等2023Rae等2020。BLOOMScao等2022精心选择了数据来源并包含了各种过滤机制Jernite等2022。 虽然网络数据是获取大量多样化数据的有效策略但强有力的清理工作仍然会导致数据伪影、重复Carlini等2020、各种类型的有毒语言Weibl等2021并且可能导致少数群体声音的边缘化Xu等2021。Dodge等2021研究了C4以更好地理解元数据以及包含和排除的数据。他们的研究结果表明C4包含机器生成的文本由于排除过滤器而存在偏见并且可能包含来自自然语言处理任务评估数据集的示例。Zeng等2022也进行了类似的努力记录了他们在训练中文大语言模型时进行的预处理。 Lee等2022a研究了去重对模型性能的影响发现去重减少了训练数据的记忆允许更好地估计泛化误差并在不影响性能的情况下减少了训练时间和成本。这些见解突显了构建高质量训练语料库的重要性和挑战。正如第2节所讨论的Bloomberg的核心业务是策划和提供对数据集的访问我们使用这些数据集构建了高质量的数据集FinPile来训练BloombergGPT从而在金融任务上取得了最佳表现。 评估。 语言模型所处理的任务大大增加需要与传统任务特定系统非常不同的评估过程。LLM评估有两种范式第一种是通过自动评估在多种场景中评估模型Liang等2022Srivastava等2022第二种是通过将模型集成到用户工作流程中进行外在和任务特定的评估例如Lee等2022bGoyal等2022。 虽然第二种策略对于评估模型在产品中的部署是必要的但在第一种策略的规模上运行这些人类评估是不可行的因此在引入新模型时通常遵循第一种策略。在我们的案例中我们结合了来自多个现有基准的通用评估这些基准有不同的目标。Srivastava等2022旨在通过向整个研究社区征集任务来实现最大覆盖而HELMLiang等2022建议通过特定数据集在各种“场景”中进行评估。早期的语言模型论文开发了自己的评估方案Brown等2020。虽然这些基准允许模型之间的并排比较但确保所有实验参数提示、解码策略、少样本示例等相同是具有挑战性的。因此我们在评估中区分了报告和验证的数字第5节。 除了通用评估外我们还需要进行有针对性的领域评估。之前的领域特定模型如GalacticaTaylor等2022选择了一组模型可能表现良好的任务。在他们的案例中这些是各种科学任务。然而金融自然语言处理领域没有标准的基准。虽然最近关于FLUEShah等2022的工作旨在提供这样的基准但它对相关任务的覆盖有限没有建议的少样本学习评估策略并且一些注释的质量较低。为了提供外部可比较的结果我们为FLUE开发了少样本策略但也决定用公司内部基准来增强公开可用的评估任务。 模型规模。 大语言模型训练在计算成本和人力成本上仍然昂贵。确定最佳的训练数据量以及模型形状和大小以充分利用资源变得重要。 Kaplan等2020首先研究了语言模型性能对架构、参数规模、计算能力和数据集大小的依赖性。他们报告说模型参数数量、数据集大小和计算量根据幂律平滑地提高了自回归语言建模目标的性能。Hernandez等2021对数据转移对不同分布的影响进行了类似调查发现这也遵循幂律。除了研究对损失的影响外Rae等2021通过训练各种规模的模型分析了规模对不良属性如偏见和毒性的影响。 比较模型架构Levine等2020研究了使用自注意力的模型的扩展并得出了深度与宽度分配的指导方针。Tay等2021报告说模型形状深度与宽度比即使对预训练目标影响最小也会影响下游任务的性能。Tay等2022b进一步研究了不同模型架构的扩展效应并表明架构选择在扩展时是相关的并且vanilla transformer架构扩展得最好。 对本工作特别重要的是Hoffmann等2022的研究他们研究了在固定计算预算下模型规模和训练token数量对模型性能的影响。他们假设现有的大语言模型训练不足模型规模和训练token数量应同等扩展。他们通过Chinchilla证明了这一假设Chinchilla是一个显著较小但性能优于大多数最大LLM的模型。这些发现为“Chinchilla最优”训练较小的模型打开了大门这些模型实现了强大的性能并且推理运行效率比其较大的对应模型高得多。这些发现促使我们考虑使用标准架构的近乎Chinchilla最优的模型。 分词。 分词和词汇选择在模型性能中起着关键作用因为它们可以帮助模型学习有意义的表示并泛化到未见过的单词。字节对编码BPESennrich等2016通过反复合并训练集中最频繁的序列对直到达到预定的词汇量从而学习一个贪婪的自下而上的词汇表。Radford等2018通过将基础词汇限制为所有可能的字节而不是所有Unicode字符来适应BPE。Wordpiece分词Schuster和Nakajima2012也通过反复合并最大化训练数据可能性的序列对来学习一个贪婪的自下而上的词汇表这与Sennrich等2016的方法略有不同。 与BPE和Wordpiece不同Unigram分词器Kudo2018通过首先初始化一个大的词汇表并反复丢弃那些增加损失例如训练数据的对数似然最少的词汇项来学习一个自上而下的词汇表。通过构造Unigram模型可以以几种不同的方式对输入文本进行分词。也就是说Unigram模型保存了概率允许在推理时进行更智能的分词。最后SentencePieceKudo和Richardson2018适应了上述方案以处理不以空格分隔的语言。Beltagy等2019构建了一个特定于科学文本的词汇表并观察到他们的领域特定训练的词汇表与非领域特定的BERT词汇表只有42%的重叠。同样Lewis等2020表明专门的生物医学词汇表在序列标注任务上持续提高了性能。Lieber等2021构建了一个更大的词汇表以确保分词效率作者声称这减少了训练时间并提高了语义表示。这些发现表明选择最能反映训练领域的分词器和伴随词汇表的重要性。出于这些原因我们决定训练自己的Unigram分词器而不是依赖现有的公共分词器。 位置嵌入。 基于Transformer的模型依赖位置嵌入来编码文本中单词的位置和位置信息。编码序列位置以及这种选择对模型性能的影响已经被广泛研究。这些包括正弦嵌入Vaswani等2017、旋转位置嵌入Su等2021a、添加相对位置偏置Raffel等2020以及向注意力头添加线性偏置Press等2022。Press等2022策略的一个副作用是可以在不损失较长序列性能的情况下在较短序列上进行训练。这有两个好处首先模型学会泛化外推到更长的序列其次模型可以在较短的序列上进行训练从而减少训练时间。 8. 伦理、局限性和影响 大语言模型的快速发展和采用伴随着关于这些模型的伦理、使用和局限性的严格讨论。关于这些主题的更完整讨论我们建议读者参考Bommasani等2021Bender等2021Birhane等2022Weidinger等20212022。我们讨论与BloombergGPT开发直接相关的问题。 伦理使用。 金融是技术应用的一个敏感领域确保准确、真实的信息对我们的产品、客户以及公司在市场中的声誉至关重要。另一方面我们的客户也渴望采用最先进的技术来支持他们的工作流程。为了向金融界提供自然语言应用我们开发了严格的风险和测试评估流程。该流程包括仔细的注释指南Tseng等2020、由中央风险和合规组织以及产品负责人如新闻编辑室进行的多级预发布审查以及发布后的监控。此外我们根据所有适用法规进行自然语言处理和人工智能系统的研究、开发和部署。 同样毒性和偏见是我们作为一家公司对任何我们生产的内容无论是来自人类还是机器都格外谨慎的领域。由于我们模型中有害语言生成的潜在性的测量取决于其应用领域量化生成不当内容的可能性仍然是一个开放的问题。我们特别感兴趣的是研究FinPile它更干净包含较少的明显偏见或有毒语言的示例如新闻稿是否减少了模型生成不当内容的倾向。随着我们开发基于该技术的产品我们将应用现有的测试程序以及风险和合规控制以确保安全使用。 开放性。 社区中正在进行的辩论涉及LLM应该如何发布如果有的话。虽然不公开的模型无法被社区全面评估但分发模型可能导致恶意用途。特别是对于像BloombergGPT这样的模型它训练了大量的新闻稿、新闻文章和文件发布模型存在通过模仿滥用的高风险。 我们见证了许多不同的策略来减轻与发布LLM相关的风险。一种策略是自由和公开地分享训练好的模型Scao等2022并依赖许可证来规定模型应该如何和不应该如何使用。另一种策略要求个人申请访问训练好的模型参数Zhang等2022aTouvron等2023。更严格的方法是提供对模型的API访问但不提供底层模型参数或模型训练数据的详细信息Brown等2020。最后有些人完全不提供对模型的访问Chowdhery等2022Hoffmann等2022。每个决定都反映了模型使用、潜在危害和业务决策的组合。 Bloomberg的核心业务之一是提供对数十年来收集的数据的访问。众所周知LLM容易受到数据泄露攻击并且给定模型权重可以提取大量文本片段Carlini等20202022。此外即使有选择性地向研究人员提供访问也不能保证模型不会被泄露。在没有强有力的隐私保证的情况下我们必须担心提供对模型权重的访问意味着提供对FinPile的访问。出于这个原因我们谨慎行事并遵循其他LLM开发者的做法不发布我们的模型。 尽管如此我们在训练和评估BloombergGPT过程中的见解和经验有助于社区对这些模型的理解。特别是我们的经验可能对那些构建领域特定模型的人有用。在开发BloombergGPT的过程中我们发现OPT的日志、BLOOM团队的经验以及非开放模型如GPT-3、PaLM、Chinchilla和Gopher的工作对我们的工作至关重要。为了支持这一传统我们包括了我们的训练日志附录C。 9. 结论 我们介绍了BloombergGPT这是一个在金融自然语言处理领域表现最佳的LLM。 我们的模型为关于训练领域特定模型的有效方法的持续对话做出了贡献。我们混合领域特定和通用数据的训练策略产生了一个在金融和通用任务上平衡表现的模型。此外我们的工作为选择Chinchilla最优规模的模型提供了另一个数据点。最后我们希望我们的模型训练日志能为那些训练自己LLM的人提供指导。 我们有几个有趣的方向可以探索。首先任务微调在LLM中产生了显著的改进我们计划考虑在金融领域中模型对齐的独特机会Wei等2021Ouyang等2022。其次通过在FinPile上训练数据我们选择了可能表现出较少有毒和偏见语言的数据。这对最终模型的影响尚不清楚我们计划进行测试。第三我们试图了解我们的分词策略如何改变最终的模型。这些是我们希望与BloombergGPT一起探索的一些新研究方向。 我们在通用LLM基准测试中取得了强劲的结果并在金融任务上优于可比模型。我们将此归因于按影响递减顺序1. 精心策划的内部数据集2. 我们独特的分词器选择3. 最新的架构。我们将继续开发BloombergGPT的金融应用以进一步探索这些建模选择的好处。
http://www.dnsts.com.cn/news/34968.html

相关文章:

  • 电商网站排行常用网站代码
  • 科技网站设计案例苏州市网站建设培训
  • 个人域名备案网站内容怎么写做艺术字的网站
  • 网站建设调研报告的前言百度一下百度搜索百度一下
  • 传奇世界官网电脑版多个域名多国语言网站seo优化
  • 青岛网站建设推广优化怎样零基础做电商
  • 做网站网页文件周口微网站制作
  • 安全的小网站深圳企业管理咨询公司
  • 手机版网站怎么上传番禺区手机版网站建设
  • 番禺网站建设哪个好网站建设需求分析报告
  • wordpress 电商网站合肥今天发现了一例病例吗
  • 电商网站对比网页制作怎么制作
  • php 网站开发架构上海网站建设软件下载
  • 建产品网站怎么做小型企业管理系统软件
  • 西宁软件网站建设三里河网站建设公司
  • 企业做的网站开发费如何入帐别墅设计装修设计
  • 正能量网站推荐不需要下载建设企业展示网站
  • 网站建设业务市场营销论文2024装修图片100张
  • 网页制作与网站建设 pdf怎么制作u盘启动盘
  • 网站开发技术包括广州花都网站建设
  • 做详情页不错的网站湖南旅游
  • 72搭建网站网页建筑工程类人才招聘
  • 网站建设要入什么科目做微信充值网站
  • 网站建设6000元网页游戏开服
  • html电影网站模板下载打开网站自动跳转代码
  • 重庆网站建设公司推荐学做吃的网站
  • 上海网站建设包括哪些godaddy网站建设
  • 影响网站权重的因素汕头网站开发定制
  • 青海网站建设公司电话wordpress foxpay
  • 网站推广关键词珠海 旅游 网站建设