LLM 微调入生产:QLoRA 与 RLHF 实战
目录
QLoRA 配置
from unsloth import FastLanguageModel
model, tokenizer = FastLanguageModel.from_pretrained(
model_name="unsloth/llama-3.2-3B",
load_in_4bit=True,
)
model = FastLanguageModel.get_peft_model(
model,
r=16,
target_modules=["q_proj", "v_proj"],
)RLHF 流程
# 1. SFT(监督微调)
trainer = SFTTrainer(model=model, ...)
trainer.train()
# 2. Reward Modeling
# 训练一个 reward model 区分好/坏回答
# 3. RLHF
# 用 PPO 优化 LLM 最大化 reward生产注意事项
✅ 用 QLoRA 省显存
✅ 准备 1000+ 高质量样本
✅ 用 RLHF 而非纯 SFT
❌ 不要过度训练(看 val loss)
❌ 不要用噪音数据结论
QLoRA + RLHF = 生产级微调方案。
大多数场景用 RAG 更值。