2023年 本地跑 LLM:不同预算的硬件配置方案
目录
先说清楚
这篇文章不吹任何产品,只给实测数字。不同预算跑不同的模型,不是越贵越好。
不同档位的实测数据
档位 1:Mac(入门级)
配置:MacBook Pro M1 16GB 或 Mac Studio M1 Max 64GB
# 实际能跑的模型
ollama run llama2 # 7B 模型,流畅
ollama run codellama # 编程专用 7B,勉强
# 量化后(Q4)
ollama run llama2:7b-q4 # 4GB 显存占用,可以接受| 指标 | M1 16GB | M1 Max 64GB |
|---|---|---|
| llama2 7B 推理速度 | ~15 tokens/s | ~25 tokens/s |
| 内存占用 | 14GB(满载) | 20GB |
| 能否跑 13B | ❌ 内存不够 | ❌ 勉强 |
结论:日常编程辅助够用,不要期待太多。
档位 2:游戏本(主流级)
配置:RTX 4070 8GB 或 RTX 4080 12GB
# ollama 支持 NVIDIA GPU 加速
export OLLAMA_VULKAN=1
ollama run llama2 # 4070 上跑到 30+ tokens/s| 指标 | RTX 4070 8GB | RTX 4080 12GB |
|---|---|---|
| llama2 7B 速度 | ~35 tokens/s | ~50 tokens/s |
| llama2 13B 速度 | ~15 tokens/s | ~35 tokens/s |
| 能跑 70B 吗 | ❌ 显存不够 | ❌ 也不够 |
| 功耗 | ~200W | ~300W |
结论:RTX 4080 是性价比最高的选择。4070 够用,4080 更好。
档位 3:台式机(发烧级)
配置:RTX 3090 24GB 或 RTX 4090 24GB
# RTX 3090/4090 可以跑 70B 模型(量化后)
ollama run llama2:70b-q4
# 实测速度
# RTX 4090 + 70B Q4: ~15 tokens/s| 指标 | RTX 3090 24GB | RTX 4090 24GB |
|---|---|---|
| llama2 70B Q4 速度 | ~10 tokens/s | ~15 tokens/s |
| 70B Q4 显存占用 | 20GB | 20GB |
| 功耗 | ~350W | ~450W |
| 性价比 | 中 | 高(相对) |
结论:如果想跑 70B 模型,至少需要 24GB 显存。RTX 4090 比 3090 快 50%,功耗反而更低。
档位 4:专业卡(服务器级)
配置:NVIDIA A100 40GB 或 A6000 48GB
# 数据中心卡,不讨论价格(你们都知道多少钱)
ollama run llama2:70b # 不用量化,全精度跑
# 速度:~60 tokens/s这种配置适合公司或团队,个人开发者一般不需要。
不同使用场景的建议
场景 1:日常编程辅助(预算 $500-1000)
推荐配置:RTX 4070 8GB + 32GB RAM + i5/i7 CPU
总价约:$800-1000
可以做的事:
- llama2 7B 流畅运行
- codellama 7B 流畅运行
- 量化后跑 13B
不能做的事:
- 跑 70B 模型
- 高效处理长文档实际体验:Mac Studio M2 Max 64GB 也是一个选择,价格约 $4000,但功耗低、静音、适合长期开着。
场景 2:重度使用(预算 $2000-3000)
推荐配置:RTX 4080 12GB + 64GB RAM
总价约:$2500
可以做的事:
- llama2 13B 流畅运行
- 量化后跑 70B(~10 tokens/s)
- 作为团队共享推理服务器
适合:
- 小团队日常使用
- 需要跑稍大模型的个人开发者场景 3:专业使用(预算 $5000+)
推荐配置:RTX 4090 24GB + 128GB RAM
总价约:$5500-6000
可以做的事:
- llama2 70B Q4 流畅(~15 tokens/s)
- 全精度 70B 也能跑(虽然慢)
- 作为小型团队主力推理服务器实际建议
不要买超过你需要的配置。
# 决策树
if 需要跑 70B 模型:
→ 至少 RTX 3090 24GB(预算 $5000+)
elif 需要跑 13B 模型:
→ RTX 4080 12GB(预算 $2500+)
elif 只是日常编程辅助:
→ Mac Studio M2 Max(预算 $4000)
→ 或者 RTX 4070 8GB(预算 $1500)总结
2023 年中,本地跑 LLM 的硬件选择:
- $0-500:用 Ollama + Mac(M1/M2),7B 模型够用
- $1000-2000:RTX 4070 8GB,13B 模型可用
- $2500-3500:RTX 4080 12GB,70B 量化可跑
- $5000+:RTX 4090 24GB 或专业卡
最重要的一点:先想清楚你要跑什么模型,再决定买什么硬件。买太好的硬件跑很小的模型是浪费,买太差的硬件跑不动是更浪费。