关键词优化网站,南昌网站建设怎么样,哈尔滨电商设计企业,网站建设制作要学什么软件macrogpt-prertrain
大模型全量预训练(1b3), 多卡deepspeed/单卡adafactor
源码地址#xff1a;https://github.com/yongzhuo/MacroGPT-Pretrain.git
踩坑
1. 数据类型fp16不太行, 很容易就Nan了, 最好是fp32, tf32,
2. 单卡如果显存不够, 可以用优化器adafactor,
3. 如果…macrogpt-prertrain
大模型全量预训练(1b3), 多卡deepspeed/单卡adafactor
源码地址https://github.com/yongzhuo/MacroGPT-Pretrain.git
踩坑
1. 数据类型fp16不太行, 很容易就Nan了, 最好是fp32, tf32,
2. 单卡如果显存不够, 可以用优化器adafactor,
3. 如果数据量很大, 加载时间特别长(默认设置稍微大一点数据就得加载好几个小时), 可以分批次训练,环境配置
transformers4.31.0
torch1.10.1
rouge1.0.1
nltk3.6.6
peft0.2.0
numpy
tqdm预训练
地址: macro_gpt/ft_gpt配置: macro_gpt/ft_gpt/config.llama_1b3_float32.json
单卡第一次训练: python train.pt.py
单卡继续训练: python train.pt.add.py
多卡训练: deepspeed --num_gpus2 train.pt.speed.py --deepspeed ds.json预训练日志(TigerBot-en)
图为tigerbot-en-00001-of-00097.json的预训练日志, loss收敛到3左右 图为baidu百科数据集(第一个60w,此外还有10%领域专业数据)的预训练日志, loss收敛到3左右
预测日志
一问一答还行, 1b3的大模型上下文能力确实比较弱 数据集-中文
https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLMhttps://github.com/TigerResearch/TigerBot
参考/感谢
https://github.com/tatsu-lab/stanford_alpacahttps://github.com/huggingface/pefttrl
免责申明
本项目相关资源仅供学术研究之用使用涉及第三方代码的部分时请严格遵循相应的开源协议。模型生成的内容受模型计算、随机性和量化精度损失等因素影响本项目不对其准确性作出保证。对于模型输出的任何内容本项目不承担任何法律责任亦不对因使用相关资源和输出结果而可能产生的任何损失承担责任。
对于模型输出的任何内容本项目不承担任何法律责任亦不对因使用相关资源和输出结果而可能产生的任何损失承担责任。