设计师网站十大网站排名,西安企业招聘官网,创客贴网页设计网站,国内精自品线一区91制片通义千问-Qwen技术报告细节分享 - 知乎写在前面大家好#xff0c;我是刘聪NLP。 阿里在很早前就开源了Qwen-7B模型#xff0c;但不知道为什么又下架了。就在昨天阿里又开源了Qwen-14B模型#xff08;原来的7B模型也放出来了#xff09;#xff0c;同时还放出了Qwen的技术报…通义千问-Qwen技术报告细节分享 - 知乎写在前面大家好我是刘聪NLP。 阿里在很早前就开源了Qwen-7B模型但不知道为什么又下架了。就在昨天阿里又开源了Qwen-14B模型原来的7B模型也放出来了同时还放出了Qwen的技术报告内容。今天特此来给大家分…https://zhuanlan.zhihu.com/p/6583926091.introduction 3万亿token 2.pretraining
2.1 data
去重精确匹配去重和使用MinHash和LSH模糊去重过滤低质量的数据采用了基于规则和基于机器学习的方法的组合使用多个模型对内容进行评分包括语言模型、文本质量评分模型以及用于识别有可能含有不合适的内容的模型。构建了一个高达3万亿个token的数据集。
2.2 tokenization
采用字节对编码BPE分词使用tiktoken。在中文增加了常用的汉字和词汇以及其它语言中的词汇遵循llama系列的方法将数字拆分成单个数字最终词汇为152k。压缩率一个汉字能够转成多少token比如0.52个token意味着一句话能够转成更少的token。
2.3 architecture
结构基本和llama对齐。 embedding和output project对于embedding层和lm_head层不进行权重共享是两个独立的权重。
positional embeddingRoPE
bias在qkv中添加了偏差以增强模型外推能力。
Pre-RMSNorm
激活函数SwiGLU
2.4 training
上下文长度2048采用flash attentionAdamWBFloat16
2.5 experimental results