Skip to content

大模型本地化部署

查看文件

1. Ollama

定位: 专为本地设备设计的开源框架,支持macOS/Linux/Windows(需WSL),无需云端资源即可运行百亿级模型。

核心优化

  1. 量化压缩支持
  2. 跨平台硬件加速
  3. 隐私与易用性
  4. 支持多模型切换

3. LMDeploy:生产级量化与国产硬件适配

定位:由 InternLM 团队推出的端到端推理框架,专注模型压缩与异构硬件部署,支持昇腾(Ascend) NPU,显存优化达 90%+。

关键技术特性

  1. 量化策略组合 量化类型 原理 显存优化 KV8 上下文 KV 缓存 INT8 量化 7B 模型显存占用 ↓36% W4A16 权重 INT4 量化 + FP16 计算 7B 模型显存降至 2.7GB

  2. 昇腾 NPU 适配

通过 DLInfer 引擎支持华为昇腾芯片,需在启智平台配置 CANN 8.0 环境。
提供昇腾专用镜像:openmind_cann8 ,预装 MindSpore 框架

详细部署流程

1. 环境配置与安装
python
# 安装 LMDeploy(x86 环境)
pip install lmdeploy[all]==0.5.3
# 昇腾环境需额外安装 DLInfer
pip install dlinfer-ascend
2. 模型量化实战
python
# W4A16 量化(以 InternLM2-5-7B 为例)
lmdeploy lite auto_awq internlm2_5-7b-chat --w-bits 4 --work-dir 
./model_4bit
# 启动量化模型对话
lmdeploy chat ./model_4bit --model-format awq
3. API 服务部署
python
 启动 API 服务(含量化)
lmdeploy serve api_server ./model_4bit --server-port 23333 --quant-policy 4
# 客户端调用(Python)
from openai import OpenAI
client = OpenAI(base_url="http://localhost:23333/v1", api_key="YOUR_KEY")
response = client.chat.completions.create(model="default", messages=
[{"role":"user", "content":"解释强化学习原理"}])