Edge AI 部署:让 LLM 跑在你的设备上
目录
Edge AI 的价值
隐私:数据不离开设备
速度:无需网络延迟
成本:零 API 费用
离线:没网也能用什么设备能跑
| 设备 | 可跑模型 | 速度 |
|---|---|---|
| iPhone 15 Pro | 3B Q4 | ~15 tok/s |
| MacBook M3 | 7B Q4 | ~30 tok/s |
| Mac Studio M2 Max | 13B Q4 | ~25 tok/s |
| NVIDIA Jetson | 7B Q4 | ~20 tok/s |
| 高端 Android 手机 | 3B Q4 | ~10 tok/s |
框架选择
Ollama(最简单)
ollama run llama3.2 # 3B 模型
ollama run codellama:7b # 编程模型MLX(Apple Silicon 专用)
# Apple Silicon 优化
from mlx_lm import generate
response = generate(
model="llama-3.2-3b",
prompt="解释什么是闭包"
)llama.cpp(通用)
# 通用,轻量
./llama-cli -m model-q4.gguf -p "Hello"实际性能
# iPhone 15 Pro 测试
model = "llama3.2-3b-q4"
prompt = "写一个 Python 快速排序"
# 速度:~15 tokens/秒
# 质量:比 GPT-3.5 略差
# 电池:10 分钟消耗 5%什么场景适合
适合 Edge AI:
✅ 隐私敏感数据(医疗、法律)
✅ 离线场景(野外、飞机)
✅ 低频使用(省 API 费用)
✅ 简单任务(3B 模型够用)
不适合 Edge AI:
❌ 复杂推理(需要更大模型)
❌ 高频调用(设备发热)
❌ 实时聊天(延迟感知明显)结论
2026 年初 Edge AI 已经可用了。
iPhone 15 Pro + 3B Q4 模型,日常简单任务够用。Mac Studio 可以跑 13B 模型,大多数场景媲美云端 API。
隐私优先或离线场景,Edge AI 是最佳选择。