给别人做网站是外包公司,麻将棋牌网站开发,the7 wordpress下载,上海区域划分文章目录 学习内容LLaMALLaMA模型结构LLaMA下载和使用好用的开源项目[Chinese-Alpaca](https://github.com/ymcui/Chinese-LLaMA-Alpaca)Chinese-Alpaca使用量化评估 学习内容
完整学习LLaMA
LLaMA
2023年2月#xff0c;由FaceBook公开了LLaMA#xff0c;包含7B#xff0… 文章目录 学习内容LLaMALLaMA模型结构LLaMA下载和使用好用的开源项目[Chinese-Alpaca](https://github.com/ymcui/Chinese-LLaMA-Alpaca)Chinese-Alpaca使用量化评估 学习内容
完整学习LLaMA
LLaMA
2023年2月由FaceBook公开了LLaMA包含7B13B30B65B。2023年7月发布LLaMA2包含7B13B65B。 可商用模型架构不变但训练数据增加了40%34B模型由于未满足安全要求并未发布包含基座模型和Chat模型LLaMA 2 - chat
论文部分介绍
数据来源于公开数据集目的在推理预算有限的情况下达到更好的效果。LLaMA 13B在大多数测试中优于GBT3-175B65B相比当时最好的模型也有竞争力。主要工作通过更多的token训练语言模型。 主要针对英语进行训练也使用了部分其他语言。
LLaMA模型结构
和 GPT 系列一样LLaMA 模型也是 Decoder-only 架构但结合前人的工作做了一些改进比如
Pre-normalization [GPT3]. 为了提高训练稳定性LLaMA 对每个 transformer 子层的输入进行归一化使用 RMSNorm 归一化函数Pre-normalization 由Zhang和Sennrich2019引入。SwiGLU 激活函数 [PaLM]. 将 ReLU 非线性替换为 SwiGLU 激活函数且使用 2 3 4 d \frac{2}{3} 4d 324d 而不是 PaLM 论文中的 4dSwiGLU 由 Shazeer2020引入以提高性能。Rotary Embeddings [GPTNeo]. 模型的输入不再使用 positional embeddings而是在网络的每一层添加了 positional embeddings (RoPE)RoPE 方法由Su等人2021引入。
LLaMA下载和使用
模型申请:地址模型代码:地址可以使用download脚本只保留7b我对校验不太了解大家可以校验一下我就肉眼看大小校验了。模型无法运行LLaMA初始权重需要用transformers的脚本convert_llama_weight_to_hf.py简单推理函数脚本和其中的文件
好用的开源项目Chinese-Alpaca 本地GPU、CPU部署 开源中文LLaMA模型和指令微调的Alpaca大模型 在原模型的基础上扩充vocab词表使用中文数据进行“继续训练”并使用中文指令数据进行微调。 该仓库的中包含的大模型。Chinese-LLaMA-7B是在原版LLaMA-7B的基础上在20GB的通用中文语料库上进行预训练。Chinese-LLaMA-Plus-7B是在原版LLaMA-7B的基础上在120GB的通用中文语料库上进行预训练  完全使用LoRA进行预训练和微调需要原版的LLaMA模型。 LoRA居然能有这么强……太离谱了。
Chinese-Alpaca使用
根据官方教程即可仅记录不同之处。单LoRA权重合并效果一般建议使用多LoRA合并。Plus和Pro
量化
量化使用llama.cpp进行量化加入-t和别的参数之后效果极快
评估
使用wikitext或自己构建数据集评估困惑度也可以使用GPT4或人类打分