目录

Edge AI 部署:让 LLM 跑在你的设备上

Edge AI 的价值

隐私:数据不离开设备
速度:无需网络延迟
成本:零 API 费用
离线:没网也能用

什么设备能跑

设备 可跑模型 速度
iPhone 15 Pro 3B Q4 ~15 tok/s
MacBook M3 7B Q4 ~30 tok/s
Mac Studio M2 Max 13B Q4 ~25 tok/s
NVIDIA Jetson 7B Q4 ~20 tok/s
高端 Android 手机 3B Q4 ~10 tok/s

框架选择

Ollama(最简单)

ollama run llama3.2        # 3B 模型
ollama run codellama:7b     # 编程模型

MLX(Apple Silicon 专用)

# Apple Silicon 优化
from mlx_lm import generate

response = generate(
    model="llama-3.2-3b",
    prompt="解释什么是闭包"
)

llama.cpp(通用)

# 通用,轻量
./llama-cli -m model-q4.gguf -p "Hello"

实际性能

# iPhone 15 Pro 测试
model = "llama3.2-3b-q4"
prompt = "写一个 Python 快速排序"

# 速度:~15 tokens/秒
# 质量:比 GPT-3.5 略差
# 电池:10 分钟消耗 5%

什么场景适合

适合 Edge AI:
  ✅ 隐私敏感数据(医疗、法律)
  ✅ 离线场景(野外、飞机)
  ✅ 低频使用(省 API 费用)
  ✅ 简单任务(3B 模型够用)

不适合 Edge AI:
  ❌ 复杂推理(需要更大模型)
  ❌ 高频调用(设备发热)
  ❌ 实时聊天(延迟感知明显)

结论

2026 年初 Edge AI 已经可用了。

iPhone 15 Pro + 3B Q4 模型,日常简单任务够用。Mac Studio 可以跑 13B 模型,大多数场景媲美云端 API。

隐私优先或离线场景,Edge AI 是最佳选择。