重庆网站推广平台,网络营销方式有哪些?举例说明,网站怎么做现场直播视频,忘记wordpress登录密码年前DeepSeek不温不火#xff0c;问题的响应极。一回车#xff0c;就看模型如口吐莲花般#xff0c;先是输出思维过程#xff0c;虽然中间绕来绕去#xff0c;但是输出回答时还是准确而简洁的。比如#xff0c;用它来读当时出来的几篇文章#xff0c;确实大大提升了效率…年前DeepSeek不温不火问题的响应极。一回车就看模型如口吐莲花般先是输出思维过程虽然中间绕来绕去但是输出回答时还是准确而简洁的。比如用它来读当时出来的几篇文章确实大大提升了效率。虽然搞科研这么多年读文章还是比较快但是遇到翻译长难句、生僻的概念读起来还是磕磕绊绊得做很足的心理建设才能克服困难读完。现在用DeepSeek等它输出的时候喝点水刷刷新闻发发呆极好。
过年前后的一波发布宣传发酵R1彻底火出了圈。1月25日后再用的时候就开始出现服务器无响应了。俗话说“由简入奢易由奢入简难”。
短时间DeepSeek无法增加服务器提供服务的情况下除了反复提交外还有什么办法呢年后随着DeepSeek的热度持续增加过年期间憋大招的工作都出来了比如ktransformer、unsloth等相继支持DeepSeek满血版知乎、三大运营商接入或提供DeepSeek访问。于是准备部署一个本地版本。
本地部署的话可以用llama.cpp、vllm、ollama等也可以使用LM studio这样的图像化界面工具。甚至可以用vllm、ollama为后端写个restful服务再包装个前端页面。对比后还是用了最傻瓜化的LM studio。
模型参数方面一开始看得眼花缭乱的后面还是老实的根据显卡显存大小选择了7B以下的模型还得是量化后的。
最开始就是问了个稍带歧义的问题“there are a amount of applesa monkey steals a half of them a day. On the ninth daythere is one apple lefthow many apples are there”。1.5B模型根据字面意思给出的答案是512。看思维过程把另外一些可能排除了其中最可能的一个以字面意思偷不了0.5个苹果给否定了。7B的Q8给出的结果一样。后面找了双卡机器跑了32B的Q8速度一下子慢了很多结果还是512。
接下来有意思的事情发生了。当我提示题目是否可以按照剩下的一个苹果是偷之前和偷之后理解是不是答案会不一样。1.5B是思维过程错误给否定了甚至得出了128个。提示了半天给出了256个。7B和32B还是比较好的理解了提示认同了题目确实存在不准确性分情况讨论合适。但是32B在接受这个理解上表现得比较固执可能是某种“自信”或者“对训练数据的过拟合形成了执念”。
在代码生成方面总结文献阅读方面1.5B的思维过程明显简单回答也比较简单。在速度方面1.5B回复的速度真快32B不优化的话慢的有点儿难以接受。
基于此1.5B基本上应付简单问答是可以的而且速度快剩下的就是各种量化版本了。为了更好的、更加客观的观察量化的影响准备用这些模型跑跑AIME24、MATH500等标准测试。
终于找回了题目没想到遇到了大坑。首先Huggingface在复现R1上是做的比较扎实的Open-R1给出了比较详实的过程和代码以及结果。因此选用了这个代码库来跑evaluation。
按照流程首先是搭个虚拟环境不想用uv就还是用conda。结果conda只有3.10没用3.11。最后查了查得加点参数。
conda create -n openr1 python3.11 -c conda-forge
然后是装vllm下载了一堆包编译了好久。
然后参考写了个AIME的测试脚本结果爆了个CUDA版本问题。没办法本来是不想动本地环境又不想配docker。装了CUDA12.4没装驱动再跑测试脚本还是报了几个包没用的问题然后继续setup。
setup这步编译到lighteval会自动降级到torch2.4.1。中断的话又和torch2.5.1不兼容编译失败。还好是有解决方案。但是下载的setup里面就是这个commit_tag奇怪。后面又编译过去了奇怪。接下来到了重头戏。fast_attn编译了半个小时没出来我想着吃了饭怎么也好了。结果到睡觉前都没出来~才在网上翻了翻原来我不是第一个等编译等到了睡觉的。
第二天一早满心欢喜的发现编译完了一堆包。再跑测试脚本import vllm就报错一个错误vllm/_C.abi3.so: undefined symbol: cuTensorMapEncodeTiled。这大概了是残留的驱动的锅了。看来本地跑是彻底没戏了。没想到编译一个vllm跑evaluation这多么坑。