2023年本地跑 LLM：不同预算的硬件配置方案

Simi 收录于 AI

2023-07-15 约 1178 字预计阅读 3 分钟

先说清楚

这篇文章不吹任何产品，只给实测数字。不同预算跑不同的模型，不是越贵越好。

不同档位的实测数据

档位 1：Mac（入门级）

配置：MacBook Pro M1 16GB 或 Mac Studio M1 Max 64GB

        
# 实际能跑的模型
ollama run llama2          # 7B 模型，流畅
ollama run codellama       # 编程专用 7B，勉强

# 量化后（Q4）
ollama run llama2:7b-q4    # 4GB 显存占用，可以接受

指标	M1 16GB	M1 Max 64GB
llama2 7B 推理速度	~15 tokens/s	~25 tokens/s
内存占用	14GB（满载）	20GB
能否跑 13B	❌ 内存不够	❌ 勉强

结论：日常编程辅助够用，不要期待太多。

档位 2：游戏本（主流级）

配置：RTX 4070 8GB 或 RTX 4080 12GB

        
# ollama 支持 NVIDIA GPU 加速
export OLLAMA_VULKAN=1
ollama run llama2          # 4070 上跑到 30+ tokens/s

指标	RTX 4070 8GB	RTX 4080 12GB
llama2 7B 速度	~35 tokens/s	~50 tokens/s
llama2 13B 速度	~15 tokens/s	~35 tokens/s
能跑 70B 吗	❌ 显存不够	❌ 也不够
功耗	~200W	~300W

结论：RTX 4080 是性价比最高的选择。4070 够用，4080 更好。

档位 3：台式机（发烧级）

配置：RTX 3090 24GB 或 RTX 4090 24GB

        
# RTX 3090/4090 可以跑 70B 模型（量化后）
ollama run llama2:70b-q4

# 实测速度
# RTX 4090 + 70B Q4: ~15 tokens/s

指标	RTX 3090 24GB	RTX 4090 24GB
llama2 70B Q4 速度	~10 tokens/s	~15 tokens/s
70B Q4 显存占用	20GB	20GB
功耗	~350W	~450W
性价比	中	高（相对）

结论：如果想跑 70B 模型，至少需要 24GB 显存。RTX 4090 比 3090 快 50%，功耗反而更低。

档位 4：专业卡（服务器级）

配置：NVIDIA A100 40GB 或 A6000 48GB

        
# 数据中心卡，不讨论价格（你们都知道多少钱）
ollama run llama2:70b      # 不用量化，全精度跑
# 速度：~60 tokens/s

这种配置适合公司或团队，个人开发者一般不需要。

不同使用场景的建议

场景 1：日常编程辅助（预算 $500-1000）

推荐配置：RTX 4070 8GB + 32GB RAM + i5/i7 CPU

总价约：$800-1000

可以做的事：
- llama2 7B 流畅运行
- codellama 7B 流畅运行
- 量化后跑 13B

不能做的事：
- 跑 70B 模型
- 高效处理长文档

实际体验：Mac Studio M2 Max 64GB 也是一个选择，价格约 $4000，但功耗低、静音、适合长期开着。

场景 2：重度使用（预算 $2000-3000）

推荐配置：RTX 4080 12GB + 64GB RAM

总价约：$2500

可以做的事：
- llama2 13B 流畅运行
- 量化后跑 70B（~10 tokens/s）
- 作为团队共享推理服务器

适合：
- 小团队日常使用
- 需要跑稍大模型的个人开发者

场景 3：专业使用（预算 $5000+）

推荐配置：RTX 4090 24GB + 128GB RAM

总价约：$5500-6000

可以做的事：
- llama2 70B Q4 流畅（~15 tokens/s）
- 全精度 70B 也能跑（虽然慢）
- 作为小型团队主力推理服务器

实际建议

不要买超过你需要的配置。

        
        
        
    
# 决策树
if 需要跑 70B 模型:
    → 至少 RTX 3090 24GB（预算 $5000+）
elif 需要跑 13B 模型:
    → RTX 4080 12GB（预算 $2500+）
elif 只是日常编程辅助:
    → Mac Studio M2 Max（预算 $4000）
    → 或者 RTX 4070 8GB（预算 $1500）

总结

2023 年中，本地跑 LLM 的硬件选择：

$0-500：用 Ollama + Mac（M1/M2），7B 模型够用
$1000-2000：RTX 4070 8GB，13B 模型可用
$2500-3500：RTX 4080 12GB，70B 量化可跑
$5000+：RTX 4090 24GB 或专业卡

最重要的一点：先想清楚你要跑什么模型，再决定买什么硬件。买太好的硬件跑很小的模型是浪费，买太差的硬件跑不动是更浪费。

目录

2023年 本地跑 LLM：不同预算的硬件配置方案