网站改版seo,建筑公司财务做账流程,wordpress分栏,安卓app开发要多少钱1. 生成式AI概览#xff1a;什么是大模型#xff0c;大模型应用场景#xff08;文生文#xff0c;多模态#xff09; 生成式AI#xff08;Generative AI#xff09;是指通过机器学习模型生成新的数据或内容的人工智能技术。生成式AI可以生成文本、图像、音频、视频等多种…1. 生成式AI概览什么是大模型大模型应用场景文生文多模态 生成式AIGenerative AI是指通过机器学习模型生成新的数据或内容的人工智能技术。生成式AI可以生成文本、图像、音频、视频等多种形式的数据广泛应用于内容创作、数据增强、自动化生成等领域。 大模型Large Model是指具有大量参数和复杂结构的深度学习模型。大模型通常基于深度神经网络特别是Transformer架构通过在大规模数据集上进行训练能够捕捉复杂的模式和关系。大模型的代表包括 GPT-3、BERT、T5、DALL-E 等。 超大参数自然语言模型对话交互生成式AI 大模型参数指的是机器学习模型中的参数这些参数决定了模型的复杂度和性能。参数越多模型越复杂能够拟合的数据也就越多但同时也需要更多的训练数据和计算资源。 主流参数单位表示 a. M百万1M(million) b. B十亿1B(billion) c. T万亿1T(trillion) d. 例子 i. GPT-3模型参数量为1750亿即1.75T参数。 ii. 百度文心大模型ERNIE 3.0的参数量为2600亿即2.6T参数。 参数量与模型性能 a. 一般来说参数量越多模型的性能越好但同时也需要更多的训练数据和计算资源。因此在实际应用中需要根据具体场景和需求来选择合适的模型参数量。 参数量的未来趋势 a. 随着人工智能技术的不断发展大模型参数量将会继续增长。未来参数量达到百亿、千亿甚至万亿级别的大模型将会越来越普遍。 大语言模型代码文件解析 a. .gitignore 是一个纯文本文件包含了项目中所有指定的文件和文件夹的列表这些文件和文件夹是Git应该忽略和不追踪的 b. MODEL_LICENSE模型商用许可文件 c. REDAME.md略 d. config.json模型配置文件包含了模型的各种参数设置例如层数、隐藏层大小、注意力头数及Transformers API的调用关系等用于加载、配置和使用预训练模型。 e. configuration_chatglm.py是该config.json文件的类表现形式模型配置的Python类代码文件定义了用于配置模型的 ChatGLMConfig 类。 f. modeling_chatglm.py源码文件ChatGLM对话模型的所有源码细节都在该文件中定义了模型的结构和前向传播过程例如 ChatGLMForConditionalGeneration 类。 g. model-XXXXX-of-XXXXX.safetensors安全张量文件保存了模型的权重信息。这个文件通常是 TensorFlow 模型的权重文件。 h. model.safetensors.index.json模型权重索引文件提供了 safetensors 文件的索引信息。 i. pytorch_model-XXXXX-of-XXXXX.binPyTorch模型权重文件保存了模型的权重信息。这个文件通常是 PyTorch模型的权重文件。 j. pytorch_model.bin.index.jsonPyTorch模型权重索引文件提供了 bin 文件的索引信息。 k. quantization.py量化代码文件包含了模型量化的相关代码。 l. special_tokens_map.json特殊标记映射文件用于指定特殊标记如起始标记、终止标记等的映射关系。 m. tokenization_chatglm.py分词器的Python类代码文件用于chatglm3-6b模型的分词器它是加载和使用模型的必要部分定义了用于分词的 ChatGLMTokenizer 类。 n. tokenizer.model包含了训练好的分词模型保存了分词器的模型信息用于将输入文本转换为标记序列通常是二进制文件使用pickle或其他序列化工具进行存储和读取。 o. tokenizer_config.json含了分词模型的配置信息用于指定分词模型的超参数和其他相关信息例如分词器的类型、词汇表大小、最大序列长度、特殊标记等 p. LFSLarge File Storage大文件存储 .safetensors格式文件是huggingface设计的一种新格式大致就是以更加紧凑、跨框架的方式存储Dict[str, Tensor]主要存储的内容为tensor的名字字符串及内容权重。 鉴于大型语言模型LLM的解释性较差问题我们需要开发相应复杂的评估方法和优化手段。 如何训练出一个大语言模型 a. 从互联网上爬取10TB text文本 b. 用6000张GPU训练12天花费200万美元总算力是1*1024次方 浮点运算每秒 c. 你最终得到一个140GB的zip压缩文件 d. 这个就是Llama 2 70B模型的训练过程 开源模型数据集数据来源于网页、社交网络对话内容、书籍、新闻、科学数据、代码 大模型的参数量越大应用范围越广 a. 8B问答、语言理解 b. 10B以上有涌现能力 c. 62B问答、语言理解、代码补全、文本总结、翻译、感知解释 d. 540B问答、语言理解、代码补全、文本总结、翻译、感知解释、通用知识理解、阅读总结、图案识别、智能对话、笑话解读、常识理解 文生文是指通过大模型生成文本内容的应用场景。大模型在文生文任务中表现出色能够生成连贯、自然的文本内容。 多模态生成是指通过大模型生成多种形式的数据或内容的应用场景。大模型在多模态生成任务中表现出色能够生成图像、音频、视频等多种形式的内容 语言模型——大模型的前身 Transformer架构划时代地提升了NLP效果——传统NLP的努力 a. Transformer2017谷歌是一种用于自然语言处理的神经网络模型使用了一种“注意力机制”的技术能够更好地捕捉序列中的关键信息提高模型性能。是当前对序列文本建模的SOTA基础模型架构可以有效考虑上下文关联。 b. 注意力attention机制让模型在处理序列数据时更加关注与当前任务相关的部分而忽略与任务无关的部分。计算输入序列中每个位置与当前位置的相关性然后根据相关性对输入序列进行加权求和得到当前位置的表示。 GPT 使用 Transformer 的 Decoder 结构并对 Decoder 进行了一些改动原本的 Decoder 包含了两个 Multi-Head Attention 结构GPT 只保留了 Mask Multi-Head Attention。 不同transformer架构模型演进——主流是decoder-only a. 绝大部分主流模型用decoder-only架构 b. 清华chatGLM用了encoder-decoder架构成本高、吞吐低但准确率高适合toB、toG c. Encoder-only架构不适合大模型场景 大部分都是微调模型基于已有大模型做微调是一种非常有效的训练技术 国内知名语言模型 基础大模型测评方法-第三方测评机构superclue测评中文大模型方法 多模态模型-文生图-stable diffusion模型 多模态模型-文生视频-sora Sora文生视频模型工作原理SORA 模型训练流程 a. Step1使用 DALLE 3CLIP 把文本和图像对 textimage 联系起来 b. Step2视频数据切分为 Patches 通过 VAE 编码器压缩成低维空间表示 c. Step3基于 Diffusion Transformer 从图像语义生成完成从文本语义到图像语义进行映射 d. Step4DiT 生成的低维空间表示通过 VAE 解码器恢复成像素级的视频数据 多模态模型-图像、视频理解-GPTo 多模态模型-图像、视频理解-GPT-4o 优点 强大的生成能力大模型能够生成高质量的文本、图像、音频、视频等内容表现出色。自动特征提取大模型能够自动提取和表示数据的特征适应不同的应用场景。广泛应用大模型在文本生成、多模态生成等领域取得了显著的成功广泛应用于内容创作、数据增强、自动化生成等。 缺点 计算资源需求高训练和推理大模型需要大量的计算资源和时间通常依赖于高性能计算设备和分布式计算技术。数据依赖大模型的性能依赖于大规模数据集的质量和数量数据获取和处理成本高。解释性差大模型的内部工作机制较为复杂难以解释其生成过程和决策依据。 生成式AI通过大模型生成新的数据或内容广泛应用于文本生成文生文和多模态生成等领域。大模型具有强大的生成能力和自动特征提取能力但也面临计算资源需求高、数据依赖和解释性差等挑战。通过不断的研究和优化生成式AI在各个领域取得了显著的成功并将继续推动人工智能的发展。