RAG 评估指南:怎么知道你的 RAG 好不好
目录
评估维度
# 1. 上下文相关性
context_relevance = llm.judge(
"Context: {context}\nQuery: {query}\n"
"Rate relevance 1-5:"
)
# 2. 回答忠实度
answer_faithfulness = llm.judge(
"Context: {context}\nAnswer: {answer}\n"
"Does answer match context? Yes/No:"
)
# 3. 回答相关性
answer_relevance = llm.judge(
"Query: {query}\nAnswer: {answer}\n"
"Does answer address query? Yes/No:"
)RAGAS 评分
from ragas import evaluate
from ragas.metrics import faithfulness, answer_relevancy
result = evaluate(dataset, metrics=[faithfulness, answer_relevancy])
# 给出 0-1 的评分结论
RAG 评估三件套:相关性 + 忠实度 + 回答质量。
定期跑评估,知道什么时候该优化。