做产品网站淘宝百度,外发加工网app,网站转微信小程序开发,外汇网站开发1、开发机创建conda环境#xff1a;
2、安装第三方库#xff1a; 3、新建pipeline_transformer.py文件#xff0c;并运行#xff1a; 4、运行结果#xff1a; 5、执行模型#xff1a; 6、与大模型进行对话#xff1a; 7、默认占有的显存#xff1a; 8、--cache-max-en…1、开发机创建conda环境
2、安装第三方库 3、新建pipeline_transformer.py文件并运行 4、运行结果 5、执行模型 6、与大模型进行对话 7、默认占有的显存 8、--cache-max-entry-count参数设置为0.5后占用的显存 9、--cache-max-entry-count参数设置为0.01后占用的显存 10、使用W4A16量化 11、将kvcache降低为0.01显存变为 12、启动api服务 13、网页客户端连接api服务器 14、python代码集成大模型 【拓展部分】
1、安装llava依赖库 2、速度测试transformer 速度测试lmdeploy