基层建设刊物网站,做网站公司融资多少,网站建站网站 小说,电商网红排行榜目录 一、OrangePi Kunpeng Pro简介二、环境搭建三、模型运行环境搭建(1)下载Ollama用于启动并运行大型语言模型(2)配置ollama系统服务(3)启动ollama服务(4)启动ollama(5)查看ollama运行状态四、模型部署(1)部署1.8b的qwen(2)部署2b的gemma(3)部署3.8的phi3(4)部署4b的qwen(5)部…
目录 一、OrangePi Kunpeng Pro简介二、环境搭建三、模型运行环境搭建(1)下载Ollama用于启动并运行大型语言模型(2)配置ollama系统服务(3)启动ollama服务(4)启动ollama(5)查看ollama运行状态四、模型部署(1)部署1.8b的qwen(2)部署2b的gemma(3)部署3.8的phi3(4)部署4b的qwen(5)部署7b的llama2五、实际效果六、总结 一、OrangePi Kunpeng Pro简介
OrangePi Kunpeng Pro是一款香橙派联合华为精心打造的高性能开发板搭载了鲲鹏处理器可提供8TOPS INT8计算能力板卡设计很精致板载资源也非常多
拥有以太网、Wi-Fi蓝牙功能提供多种可选择的网络接入方式。 2个USB3.0 Host、1个支持USB3.0的Type-C接口可接入鼠标、键盘、USB摄像头等设备方便板卡操作。 2个HDMI接口、1 个 MIPI DSI 2 Lane接口提供两种显示方案。 引出了40 pin 扩展口可扩展UART、I2C、SPI、PWM 和 GPIO 等接口功能。 板卡完整接口如下图所示
板卡扩展出的功能很多能够满足很多应用场景和行业的开发需求本文将描述使用OrangePi Kunpeng Pro来部署AI大模型记录分析模型运行期间板卡的状态和模型运行效果。
二、环境搭建
1首先取出板卡为板卡接入一个HDMI显示屏、一个无线蓝牙鼠标、一个有线键盘接着接通电源完成后如下图所示 2随后板卡将自动启动运行openEuler操作系统接着我们进入终端 3查看下存储容量 从上图可知目前可用容量很大可满足小量级离线模型的存储。 板卡运行openEuler非常流畅使用体验感非常好。 4选择网络接入方式本文使用Wifi接入。
5更改CPU为AI CPU 从上图中可知目前板卡有3个AP CPU和1个control CPU。
接着就进行模型运行环境搭建和模型部署了。
三、模型运行环境搭建
(1)下载Ollama用于启动并运行大型语言模型
由于在线下载Ollama速度较慢故而使用手动方式安装Ollama首先从下列地址下载Ollama
https://ollama.com/download/ollama-linux-arm64完成后将其通过ssh方式传输到板卡。接着将其重名为ollama便于命令操作然后将ollama复制到/usr/bin目录中并赋予可执行权限
sudo chmod x /usr/bin/ollama(2)配置ollama系统服务
使用以下命令创建ollama服务描述文件
sudo touch /etc/systemd/system/ollama.service并在文件中编辑如下内容
[Unit]
DescriptionOllama Service
Afternetwork-online.target[Service]
ExecStart/usr/bin/ollama serve
Userroot
Grouproot
Restartalways
RestartSec3[Install]
WantedBydefault.target(3)启动ollama服务
使用下述命令启动ollama服务
sudo systemctl daemon-reload
sudo systemctl enable ollama(4)启动ollama
使用下述命令启动ollama:
sudo systemctl start ollama(5)查看ollama运行状态
使用如下命令查看ollama运行状态
systemctl status ollama.service从上图可知目前ollama启动成功。
四、模型部署
通过上述第三小节的步骤后Ollama模型运行环境就搭建完成本小节将部署五个模型1.8b的qwen、2b的gemma、3.8b的phi3、4b的qwen和7b的llama2测试OrangePi Kunpeng Pro运行模型的实际效果。模型细节如下表所示
序号模型参数描述1qwen1.8bQwen是阿里云开发的大型语言模型1.8b1.1GB2gemma2bGemma是由Google DeepMind构建的一系列轻量级的开放模型大小1.7GB3phi33.8bphi3是微软开发的开放AI模型系列3.8b为Mini系列大小2.4GB4qwen4bQwen是阿里云开发的大型语言模型4b大小2.3GB5llama27bLlama 2是由Meta平台公司发行的基础语言模型大小3.8GB
(1)部署1.8b的qwen
使用ollama run qwen:1.8b部署1.8b的qwen模型 上述模型部署完成后对其进行问答测试如下图所示 效果运行1.8b的qwen模型CPU负载没有占满进行问答测试回答速度较快效果很好 (2)部署2b的gemma
使用ollama run gemma:2b部署2b的gemma模型 上述模型部署完成后对其进行问答测试如下图所示 效果运行2b的gemma模型和运行1.8b的qwen模型效果相似CPU负载同样没有占满进行问答测试回答速度快效果好 (3)部署3.8的phi3
使用ollama run phi3:3.8b部署3.8b的phi3模型 上述模型部署完成后对其进行问答测试如下图所示 效果运行3.8b的phi3模型进行问答测试回答速度变慢了。 (4)部署4b的qwen
使用ollama run qwen:4b部署4b的qwen模型 上述模型部署完成后对其进行问答测试如下图所示 效果运行4b的qwen模型进行问答测试回答问题速度明显变慢计算生成答案的速度变慢打印文字的速度也变慢了。 (5)部署7b的llama2
使用ollama run llama2:7b部署7b的llama2模型 上述模型部署完成后对其进行问答测试如下图所示 效果运行7b的llama2模型CPU满负载了进行问答测试回答问题速度也明显变得很慢计算生成答案的速度变慢打印文字的速度也变慢了。 五、实际效果
上述第四小节描述了运行五个模型的实际使用效果本小节附上运行1.8b的qwen模型的效果如下图所示 注因gif图对视频有所处理以实际运行效果为准
六、总结
OrangePi Kunpeng Pro板卡是一块拥有较高计算性能的板卡本文使用该板卡部署了五个模型以本文所描述模型为参考对于1.8b和2b量级的模型来说运行效果还可以体验较好对于3.8b和4b量级的模型来说体验感有所下降一是计算生成答案的过程变长二是文字输出存在断续对于7b量级的模型体验感更是降了一个层次文字输出存在明显的断续了。
体验感是一个非理性的名词因人而异不同的场景和模型不同的使用者都可能存在不同的体验本文所有内容仅供参考和评测