当前位置：首页 > news >正文

关键词优化网站南昌网站建设怎么样

news 2026/2/26 15:43:46

关键词优化网站,南昌网站建设怎么样,哈尔滨电商设计企业,网站建设制作要学什么软件macrogpt-prertrain 大模型全量预训练(1b3), 多卡deepspeed/单卡adafactor 源码地址#xff1a;https://github.com/yongzhuo/MacroGPT-Pretrain.git 踩坑 1. 数据类型fp16不太行, 很容易就Nan了, 最好是fp32, tf32, 2. 单卡如果显存不够, 可以用优化器adafactor, 3. 如果…macrogpt-prertrain 大模型全量预训练(1b3), 多卡deepspeed/单卡adafactor 源码地址https://github.com/yongzhuo/MacroGPT-Pretrain.git 踩坑 1. 数据类型fp16不太行, 很容易就Nan了, 最好是fp32, tf32, 2. 单卡如果显存不够, 可以用优化器adafactor, 3. 如果数据量很大, 加载时间特别长(默认设置稍微大一点数据就得加载好几个小时), 可以分批次训练,环境配置 transformers4.31.0 torch1.10.1 rouge1.0.1 nltk3.6.6 peft0.2.0 numpy tqdm预训练地址: macro_gpt/ft_gpt配置: macro_gpt/ft_gpt/config.llama_1b3_float32.json 单卡第一次训练: python train.pt.py 单卡继续训练: python train.pt.add.py 多卡训练: deepspeed --num_gpus2 train.pt.speed.py --deepspeed ds.json预训练日志(TigerBot-en) 图为tigerbot-en-00001-of-00097.json的预训练日志, loss收敛到3左右图为baidu百科数据集(第一个60w,此外还有10%领域专业数据)的预训练日志, loss收敛到3左右预测日志一问一答还行, 1b3的大模型上下文能力确实比较弱数据集-中文 https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLMhttps://github.com/TigerResearch/TigerBot 参考/感谢 https://github.com/tatsu-lab/stanford_alpacahttps://github.com/huggingface/pefttrl 免责申明本项目相关资源仅供学术研究之用使用涉及第三方代码的部分时请严格遵循相应的开源协议。模型生成的内容受模型计算、随机性和量化精度损失等因素影响本项目不对其准确性作出保证。对于模型输出的任何内容本项目不承担任何法律责任亦不对因使用相关资源和输出结果而可能产生的任何损失承担责任。对于模型输出的任何内容本项目不承担任何法律责任亦不对因使用相关资源和输出结果而可能产生的任何损失承担责任。

查看全文

http://www.dnsts.com.cn/news/142310.html