目录

RAG 评估指南:怎么知道你的 RAG 好不好

评估维度

# 1. 上下文相关性
context_relevance = llm.judge(
    "Context: {context}\nQuery: {query}\n"
    "Rate relevance 1-5:"
)

# 2. 回答忠实度
answer_faithfulness = llm.judge(
    "Context: {context}\nAnswer: {answer}\n"
    "Does answer match context? Yes/No:"
)

# 3. 回答相关性
answer_relevance = llm.judge(
    "Query: {query}\nAnswer: {answer}\n"
    "Does answer address query? Yes/No:"
)

RAGAS 评分

from ragas import evaluate
from ragas.metrics import faithfulness, answer_relevancy

result = evaluate(dataset, metrics=[faithfulness, answer_relevancy])
# 给出 0-1 的评分

结论

RAG 评估三件套:相关性 + 忠实度 + 回答质量。

定期跑评估,知道什么时候该优化。