当前位置: 首页 > news >正文

徐汇网站推广WordPress清除ID沉余

徐汇网站推广,WordPress清除ID沉余,齐河网站建设,做网站开发需要学什么目标 输入#xff1a;你是谁#xff1f; 输出#xff1a;我们预训练的名字。 训练 为了性能好下载小参数模型#xff0c;普通机器都能运行。 下载模型 # 方式1#xff1a;使用魔搭社区SDK 下载 # down_deepseek.py from modelscope import snapshot_download model_…目标 输入你是谁 输出我们预训练的名字。 训练 为了性能好下载小参数模型普通机器都能运行。 下载模型 # 方式1使用魔搭社区SDK 下载 # down_deepseek.py from modelscope import snapshot_download model_dir snapshot_download(deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B)# 方式2git lfs # 需要提前安装git大文件存储 git-lfs # 在线查看 https://www.modelscope.cn/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B git lfs install git clone https://www.modelscope.cn/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B.git训练模型 # finetune_deepseek.py from datasets import Dataset from transformers import (AutoModelForCausalLM,AutoTokenizer,TrainingArguments,Trainer,DataCollatorForLanguageModeling )# 加载模型和分词器 model_name deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B tokenizer AutoTokenizer.from_pretrained(model_name, trust_remote_codeTrue) model AutoModelForCausalLM.from_pretrained(model_name, trust_remote_codeTrue)# 准备训练数据 train_data [{question: 你是谁?,answer: 我是黄登峰。},{question: 你的名字是什么,answer: 黄登峰},{question: 你是做什么的,answer: 我是深圳一家公司打工的牛马程序员。},# 在这里添加更多的问答对 ]test_data [{question: 你的名字是什么?,answer: 我的名字是黄登峰。} ] def format_instruction(example):格式化输入输出对return fHuman: {example[question]}\n\nAssistant: {example[answer]}# 转换数据格式 train_formatted_data [{text: format_instruction(item)} for item in train_data] test_formatted_data [{text: format_instruction(item)} for item in test_data] train_dataset Dataset.from_list(train_formatted_data) test_dataset Dataset.from_list(test_formatted_data)# 数据预处理函数 def preprocess_function(examples):return tokenizer(examples[text], truncationTrue, paddingmax_length, max_length512)# 对数据集进行预处理 train_tokenized_dataset train_dataset.map(preprocess_function,batchedTrue,remove_columnstrain_dataset.column_names )test_tokenized_dataset test_dataset.map(preprocess_function,batchedTrue,remove_columnstest_dataset.column_names ) output_dir deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B_CUSTOM# 训练参数设置 training_args TrainingArguments(output_diroutput_dir,num_train_epochs3,per_device_train_batch_size4,save_steps100,save_total_limit2,learning_rate2e-5,weight_decay0.01,logging_dir./logs,logging_steps10, )# 创建训练器 trainer Trainer(modelmodel,argstraining_args,train_datasettrain_tokenized_dataset,eval_datasettest_tokenized_dataset,data_collatorDataCollatorForLanguageModeling(tokenizertokenizer, mlmFalse), )# 开始训练 trainer.train()# 保存模型 trainer.save_model() # 保存tokenizer tokenizer.save_pretrained(output_dir)模型格式 训练后的模型输出格式是Hugging Face格式vllm 可以直接使用ollama,llama.cpp默认是GGUF格式。 # 需要用llama.cpp仓库的convert_hf_to_gguf.py脚本来转换 git clone https://github.com/ggerganov/llama.cpp.git pip install -r llama.cpp/requirements.txt # 如果不量化保留模型的效果 python llama.cpp/convert_hf_to_gguf.py ./DeepSeek-R1-Distill-Qwen-1.5B --outtype f16 --verbose --outfile DeepSeek-R1-Distill-Qwen-1.5B.gguf # 如果需要量化加速并有损效果直接执行下面脚本就可以 python llama.cpp/convert_hf_to_gguf.py ./DeepSeek-R1-Distill-Qwen-1.5B --outtype q8_0 --verbose --outfile DeepSeek-R1-Distill-Qwen-1.5B.gguf验证 # test_model.py from transformers import AutoModelForCausalLM, AutoTokenizer import torchdef generate_response(prompt, model, tokenizer, max_length512):# 将输入格式化为训练时的格式formatted_prompt fHuman: {prompt}\n\nAssistant:# 对输入进行编码inputs tokenizer(formatted_prompt, return_tensorspt, paddingTrue, truncationTrue)# 生成回答with torch.no_grad():outputs model.generate(inputs.input_ids,max_lengthmax_length,num_return_sequences1,temperature0.7,do_sampleTrue,pad_token_idtokenizer.pad_token_id,eos_token_idtokenizer.eos_token_id,)# 解码输出response tokenizer.decode(outputs[0], skip_special_tokensTrue)# 提取Assistant的回答部分response response.split(Assistant:)[-1].strip()return responsedef main():# 加载微调后的模型和分词器model_path deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B_CUSTOMtokenizer AutoTokenizer.from_pretrained(model_path, trust_remote_codeTrue)model AutoModelForCausalLM.from_pretrained(model_path, trust_remote_codeTrue)# 准备测试问题test_questions [你是谁?,你的名字是什么?,你是做什么的?,]# 测试模型回答print(开始测试模型回答)print(- * 50)for question in test_questions:print(f问题: {question})response generate_response(question, model, tokenizer)print(f回答: {response})print(- * 50)if __name__ __main__:main()
http://www.dnsts.com.cn/news/154541.html

相关文章:

  • 山东济南建网站公司济源市城乡建设局网站
  • 点了网站域名会跳转上海商用厨房设计
  • 快手里做网站荣耀封面的视频网页版微信登不上去怎么回事
  • 网站兼容9深圳外贸建站
  • 上海中小企业网站友链申请
  • 怎么做公司免费网站网站建立项目步骤
  • 网站刚做怎么做seo优化在线模板制作
  • 应持续抓好二级网站的建设工作太湖县网站建设公司
  • 棋牌网站怎么做优化蓝屏的钙 WordPress
  • 商业网站建设费用服务器租用免费试用
  • 做付费软件网站花式表白网址
  • 中国国际贸易单一窗口网站众筹网站建设方案
  • ps切片以后 怎么做网站微信开发工具文档
  • 网站备案号显示红色如果网站没有做icp备案吗
  • 城乡厅建设部网站首页数据分析网站html模板下载
  • 湛江网站建设外包找网站建设公司哪家最好
  • 网站建设广告平台推广网络建设公司前景
  • 网站建设思维导图模版电商哪个平台好做
  • 平板做网站服务器谁能给做网站
  • 做网站用什么技术好低价网站建设费用预算
  • 个人博客网站源码外贸网站建设公司如何
  • 房产网站代理详情页用什么软件制作
  • 网站运营做内容vue.js 可以做网站吗
  • 有个新网站能提供做任务的阅币漫画网站
  • 网站建设与管理专业就业同企网站建设做网站
  • 形容网站页面做的好的词语设计图库
  • asp网站链接access英语网站的建设需要
  • 精准扶贫电商网站建设计划书电子商务网站开发模块流程图
  • 延吉最好的网站建设公司个人网站用什么服务器
  • 海淀网站建设wordpress安装无法连接数据库连接