目录

LLM 微调入生产:QLoRA 与 RLHF 实战

QLoRA 配置

from unsloth import FastLanguageModel

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="unsloth/llama-3.2-3B",
    load_in_4bit=True,
)

model = FastLanguageModel.get_peft_model(
    model,
    r=16,
    target_modules=["q_proj", "v_proj"],
)

RLHF 流程

# 1. SFT(监督微调)
trainer = SFTTrainer(model=model, ...)
trainer.train()

# 2. Reward Modeling
# 训练一个 reward model 区分好/坏回答

# 3. RLHF
# 用 PPO 优化 LLM 最大化 reward

生产注意事项

✅ 用 QLoRA 省显存
✅ 准备 1000+ 高质量样本
✅ 用 RLHF 而非纯 SFT
❌ 不要过度训练(看 val loss)
❌ 不要用噪音数据

结论

QLoRA + RLHF = 生产级微调方案。

大多数场景用 RAG 更值。