淮安经济技术开发区建设局网站,网站制作切片,网站建设与管理是干嘛的,网站建设的切片是什么中文Mistral简介
Chinese-Mistral由清华大学地学系地球空间信息科学实验室开发。 该模型基于Mistral发布的Mistral-7B-v0.1训练得到。首先进行中文词表扩充#xff0c;然后采用实验室提出的PREPARED训练框架#xff08;under review#xff09;在中英双语语料上进行增量预训…中文Mistral简介
Chinese-Mistral由清华大学地学系地球空间信息科学实验室开发。 该模型基于Mistral发布的Mistral-7B-v0.1训练得到。首先进行中文词表扩充然后采用实验室提出的PREPARED训练框架under review在中英双语语料上进行增量预训练。 实验结果表明本模型的中文能力高于其他中文mistral-7B模型且中文编码效率高于其他同等词表大小的模型。 下载地址https://huggingface.co/itpossible/Chinese-Mistral-7B-v0.1 如果无法科学上网可通过镜像下载https://hf-mirror.com/itpossible/Chinese-Mistral-7B-v0.1
训练语料及清洗
语料采样于WuDao、WanJuan、Dolma等高质量开源数据集。我们仔细检查了这些数据集发现可以进一步提高数据质量。我们采用KenLM计算文档的PPL、启发式算法、定义过滤规则等方法进一步清洗语料最终保留了90%的语料。
词表扩充
采用BPE算法Sentencepiece实现扩充中文词表将mistral的词表由32000扩充至63776。我们随机从WuDao中抽取了多个文档这些文档包括67,013,857个单词。多个模型的词表性能对比如下表。 结果显示Chinese-Mistral的编码效率最高。
中文与英文通用能力比较
采用C-Eval用于评测中文能力、C-MMLU用于评测中文能力、MMLU用于评测英文能力的测试集进行评测。 与openbuddy社区开源的中文mistral在统一的实验环境中进行对比显示Chinese-Mistral中英文能力均优于Openbuddy-mistral-7b-v13-base。
模型推理
import torch
from transformers import AutoModelForCausalLM, AutoTokenizerdevice torch.device(cuda:0) if torch.cuda.is_available() else torch.device(cpu)model_path itpossible/Chinese-Mistral-7B-v0.1
tokenizer AutoTokenizer.from_pretrained(model_path)
model AutoModelForCausalLM.from_pretrained(model_path, torch_dtypetorch.bfloat16, device_mapdevice)text 在一场大雨后我
inputs tokenizer(text, return_tensorspt).to(device)outputs model.generate(**inputs, max_new_tokens20)
print(tokenizer.decode(outputs[0], skip_special_tokensTrue))Chinese-Mistral平替——JiuZhou九州大语言模型
JiuZhou将Chinese-Mistral作为基座模型在大规模地球科学领域语料上进行增量预训练。由于地球科学是交叉性非常强的学科因此其通用能力得到进一步的提升。 C-Eval排行榜显示九州的中文能力超越了开源社区开发的Chinese-Alpaca-Plus-13B逼近chatglm2-6B。 JiuZhou基座模型下载地址https://huggingface.co/itpossible/JiuZhou-base