大模型本地化部署

查看文件

1. Ollama

定位: 专为本地设备设计的开源框架，支持macOS/Linux/Windows(需WSL),无需云端资源即可运行百亿级模型。

核心优化

量化压缩支持
跨平台硬件加速
隐私与易用性
支持多模型切换

3. LMDeploy：生产级量化与国产硬件适配

定位：由 InternLM 团队推出的端到端推理框架，专注模型压缩与异构硬件部署，支持昇腾（Ascend） NPU，显存优化达 90%+。

关键技术特性

量化策略组合量化类型原理显存优化 KV8 上下文 KV 缓存 INT8 量化 7B 模型显存占用 ↓36% W4A16 权重 INT4 量化 + FP16 计算 7B 模型显存降至 2.7GB
昇腾 NPU 适配

通过 DLInfer 引擎支持华为昇腾芯片，需在启智平台配置 CANN 8.0 环境。
提供昇腾专用镜像：openmind_cann8 ，预装 MindSpore 框架

详细部署流程

1. 环境配置与安装

python

# 安装 LMDeploy（x86 环境）
pip install lmdeploy[all]==0.5.3
# 昇腾环境需额外安装 DLInfer
pip install dlinfer-ascend

2. 模型量化实战

python

# W4A16 量化（以 InternLM2-5-7B 为例）
lmdeploy lite auto_awq internlm2_5-7b-chat --w-bits 4 --work-dir 
./model_4bit
# 启动量化模型对话
lmdeploy chat ./model_4bit --model-format awq

3. API 服务部署

python

 启动 API 服务（含量化）
lmdeploy serve api_server ./model_4bit --server-port 23333 --quant-policy 4
# 客户端调用（Python）
from openai import OpenAI
client = OpenAI(base_url="http://localhost:23333/v1", api_key="YOUR_KEY")
response = client.chat.completions.create(model="default", messages=
[{"role":"user", "content":"解释强化学习原理"}])

大模型本地化部署 ​

1. Ollama ​

核心优化 ​

3. LMDeploy：生产级量化与国产硬件适配 ​

关键技术特性 ​

详细部署流程 ​

1. 环境配置与安装 ​

2. 模型量化实战 ​

3. API 服务部署 ​

大模型本地化部署

1. Ollama

核心优化

3. LMDeploy：生产级量化与国产硬件适配

关键技术特性

详细部署流程

1. 环境配置与安装

2. 模型量化实战

3. API 服务部署