目录

Edge AI 部署：让 LLM 跑在你的设备上

Simi 收录于 AI

2026-03-26 约 443 字预计阅读 1 分钟

目录

Edge AI 的价值

隐私：数据不离开设备
速度：无需网络延迟
成本：零 API 费用
离线：没网也能用

什么设备能跑

设备	可跑模型	速度
iPhone 15 Pro	3B Q4	~15 tok/s
MacBook M3	7B Q4	~30 tok/s
Mac Studio M2 Max	13B Q4	~25 tok/s
NVIDIA Jetson	7B Q4	~20 tok/s
高端 Android 手机	3B Q4	~10 tok/s

框架选择

Ollama（最简单）

        
ollama run llama3.2        # 3B 模型
ollama run codellama:7b     # 编程模型

MLX（Apple Silicon 专用）

        
# Apple Silicon 优化
from mlx_lm import generate

response = generate(
    model="llama-3.2-3b",
    prompt="解释什么是闭包"
)

llama.cpp（通用）

        
# 通用，轻量
./llama-cli -m model-q4.gguf -p "Hello"

实际性能

        
# iPhone 15 Pro 测试
model = "llama3.2-3b-q4"
prompt = "写一个 Python 快速排序"

# 速度：~15 tokens/秒
# 质量：比 GPT-3.5 略差
# 电池：10 分钟消耗 5%

什么场景适合

        
        
        
    
适合 Edge AI：
  ✅ 隐私敏感数据（医疗、法律）
  ✅ 离线场景（野外、飞机）
  ✅ 低频使用（省 API 费用）
  ✅ 简单任务（3B 模型够用）

不适合 Edge AI：
  ❌ 复杂推理（需要更大模型）
  ❌ 高频调用（设备发热）
  ❌ 实时聊天（延迟感知明显）

结论

2026 年初 Edge AI 已经可用了。

iPhone 15 Pro + 3B Q4 模型，日常简单任务够用。Mac Studio 可以跑 13B 模型，大多数场景媲美云端 API。

隐私优先或离线场景，Edge AI 是最佳选择。