AI 生成代码的测试策略和普通代码不同。这篇文章讲清楚 AI 代码的测试方法。
QLoRA + RLHF 是把 LLM 微调用于生产的主流方案。这篇文章快速过一遍实战流程。
开源微调工具越来越成熟,在本地用消费级 GPU 微调一个小模型已经可行。这篇文章是实战经验:用什么工具、数据准备、常见坑,以及什么场景值得微调。
RAG 系统的评估是个难题。RAGAS、Trulens、LLM-as-Judge——这篇文章介绍实用的 RAG 评估方法。
LLM 服务上线后,监控 Prompt/Response 模式是发现问题的关键。这篇文章讲 LLM 可观测性的具体实现。
GitFlow 已死,Trunk-Based Development 才是现代开发团队的正解。这篇文章讲清楚怎么迁移。