评估 (Evals)
你无法改进你无法衡量的东西。Evals 是 AI 质量的“单元测试”。
核心 RAG 指标 (RAG 三元组)
在构建 RAG 时,你需要衡量三件事:
- 上下文相关性 (Context Relevance): 我找到了正确的文件吗?(检索器质量)
- 忠实度 (Faithfulness): AI 是否仅根据文档回答?(幻觉检查)
- 答案相关性 (Answer Relevance): AI 实际上回答了用户的问题吗?
如何衡量?
由于“质量”是主观的,我们使用更强的 LLM (GPT-4) 来给较弱的 LLM 打分。
示例:忠实度检查
System: 你是一个严格的评分员。
User:
Context: "Apple 成立于 1976 年。"
Answer: "Apple 成立于 1990 年。"
Answer 是否与 Context 一致?
分数 (0-1):A/B 测试提示词
在没有 A/B 测试的情况下,永远不要在生产环境中更改提示词。
- 基线 (Baseline): 当前提示词 A。
- 挑战者 (Challenger): 新提示词 B (例如,“更简洁”)。
- 实验: 将 50% 的流量路由到 B。
- 指标: 衡量“复制按钮点击率”或“点赞率”。
用户反馈循环
最有价值的数据是显式用户反馈。
- 👍 正面: 将此对话添加到你的“黄金数据集”中,以备将来微调。
- 👎 负面: 将此添加到你的“回归测试套件”中,以确保你修复了该 Bug。
工具
- Ragas: 用于计算 RAG 分数的 Python/JS 库。
- Arize Phoenix: 开源可观测性和评估平台。
- LangSmith: LangChain 的企业平台。