目录

2023年 本地跑 LLM:不同预算的硬件配置方案

先说清楚

这篇文章不吹任何产品,只给实测数字。不同预算跑不同的模型,不是越贵越好。

不同档位的实测数据

档位 1:Mac(入门级)

配置:MacBook Pro M1 16GB 或 Mac Studio M1 Max 64GB

# 实际能跑的模型
ollama run llama2          # 7B 模型,流畅
ollama run codellama       # 编程专用 7B,勉强

# 量化后(Q4)
ollama run llama2:7b-q4    # 4GB 显存占用,可以接受
指标 M1 16GB M1 Max 64GB
llama2 7B 推理速度 ~15 tokens/s ~25 tokens/s
内存占用 14GB(满载) 20GB
能否跑 13B ❌ 内存不够 ❌ 勉强

结论:日常编程辅助够用,不要期待太多。

档位 2:游戏本(主流级)

配置:RTX 4070 8GB 或 RTX 4080 12GB

# ollama 支持 NVIDIA GPU 加速
export OLLAMA_VULKAN=1
ollama run llama2          # 4070 上跑到 30+ tokens/s
指标 RTX 4070 8GB RTX 4080 12GB
llama2 7B 速度 ~35 tokens/s ~50 tokens/s
llama2 13B 速度 ~15 tokens/s ~35 tokens/s
能跑 70B 吗 ❌ 显存不够 ❌ 也不够
功耗 ~200W ~300W

结论:RTX 4080 是性价比最高的选择。4070 够用,4080 更好。

档位 3:台式机(发烧级)

配置:RTX 3090 24GB 或 RTX 4090 24GB

# RTX 3090/4090 可以跑 70B 模型(量化后)
ollama run llama2:70b-q4

# 实测速度
# RTX 4090 + 70B Q4: ~15 tokens/s
指标 RTX 3090 24GB RTX 4090 24GB
llama2 70B Q4 速度 ~10 tokens/s ~15 tokens/s
70B Q4 显存占用 20GB 20GB
功耗 ~350W ~450W
性价比 高(相对)

结论:如果想跑 70B 模型,至少需要 24GB 显存。RTX 4090 比 3090 快 50%,功耗反而更低。

档位 4:专业卡(服务器级)

配置:NVIDIA A100 40GB 或 A6000 48GB

# 数据中心卡,不讨论价格(你们都知道多少钱)
ollama run llama2:70b      # 不用量化,全精度跑
# 速度:~60 tokens/s

这种配置适合公司或团队,个人开发者一般不需要。

不同使用场景的建议

场景 1:日常编程辅助(预算 $500-1000)

推荐配置:RTX 4070 8GB + 32GB RAM + i5/i7 CPU

总价约:$800-1000

可以做的事:
- llama2 7B 流畅运行
- codellama 7B 流畅运行
- 量化后跑 13B

不能做的事:
- 跑 70B 模型
- 高效处理长文档

实际体验:Mac Studio M2 Max 64GB 也是一个选择,价格约 $4000,但功耗低、静音、适合长期开着。

场景 2:重度使用(预算 $2000-3000)

推荐配置:RTX 4080 12GB + 64GB RAM

总价约:$2500

可以做的事:
- llama2 13B 流畅运行
- 量化后跑 70B(~10 tokens/s)
- 作为团队共享推理服务器

适合:
- 小团队日常使用
- 需要跑稍大模型的个人开发者

场景 3:专业使用(预算 $5000+)

推荐配置:RTX 4090 24GB + 128GB RAM

总价约:$5500-6000

可以做的事:
- llama2 70B Q4 流畅(~15 tokens/s)
- 全精度 70B 也能跑(虽然慢)
- 作为小型团队主力推理服务器

实际建议

不要买超过你需要的配置。

# 决策树
if 需要跑 70B 模型:
     至少 RTX 3090 24GB预算 $5000+
elif 需要跑 13B 模型:
     RTX 4080 12GB预算 $2500+
elif 只是日常编程辅助:
     Mac Studio M2 Max预算 $4000
     或者 RTX 4070 8GB预算 $1500

总结

2023 年中,本地跑 LLM 的硬件选择:

  • $0-500:用 Ollama + Mac(M1/M2),7B 模型够用
  • $1000-2000:RTX 4070 8GB,13B 模型可用
  • $2500-3500:RTX 4080 12GB,70B 量化可跑
  • $5000+:RTX 4090 24GB 或专业卡

最重要的一点:先想清楚你要跑什么模型,再决定买什么硬件。买太好的硬件跑很小的模型是浪费,买太差的硬件跑不动是更浪费。