Python LLM 评估的 DeepEval / RAGAS 框架

冷炫風刃

发布时间：2026-02-20 17:51:09

171人浏览过

来源于php中文网

原创

deepeval报错validationerror因缺少expected_output，rag评估应改用ragas；context_recall为0因未提供ground_truth_contexts；deepeval与ragas的retrieval_context格式不兼容，需统一处理。

python llm 评估的 deepeval / ragas 框架

DeepEval 报错 `ValidationError` 说 missing `expected_output`

DeepEval 默认走“有标准答案”的评估路径，如果你在测 RAG 场景（比如问答、摘要），没给 expected_output 就直接跑 AnswerRelevancyMetric 或 FaithfulnessMetric，它会立刻抛 ValidationError —— 不是因为你写错了，而是它根本没设计成支持“无参考答案”的评估模式。

实操建议：

立即学习“Python免费学习笔记（深入）”；

IBM Watson

IBM Watson文字转语音

下载

对 RAG 输出做无参考评估（比如只看是否忠实于上下文），改用 Ragas 的 faithfulness 或 answer_relevance，它们天然接受空 expected_output
非要用 DeepEval？得伪造一个 expected_output，哪怕填 "N/A" 或空字符串，再配合 ignore_errors=True 参数绕过校验（但注意：部分指标如 AnswerCorrectnessMetric 仍会失效）
检查你传入的 test_case 是不是用了 LLMTestCase 而不是 LLMTestCase 的子类（比如 RAGTestCase）——后者才支持 retrieval_context 字段，前者硬塞会静默丢数据

Ragas 的 `context_recall` 总是返回 0.0

context_recall 是唯一需要人工标注“哪些上下文片段真正支撑了答案”的指标，不是模型自己能猜出来的。如果你没提供 ground_truth_contexts（即标注好的、真正被用到的 chunk 列表），它就默认找不到依据，统一判 0.0。

实操建议：

立即学习“Python免费学习笔记（深入）”；

ground_truth_contexts 必须是字符串列表，每个元素对应一个原始 chunk 的完整文本，不能是 ID、索引或摘要
确保这些 chunk 和你实际喂给 LLM 的 retrieval_context 内容完全一致（包括换行、标点、空格）；差一个句号都可能匹配失败
如果人工标注成本高，先别用 context_recall，改用 context_precision（它只看你检索出的 chunk 里有多少真被用了，不需要 ground truth）

DeepEval 和 Ragas 混着用时，`retrieval_context` 格式不兼容

DeepEval 的 LLMTestCase 要求 retrieval_context 是字符串列表，而 Ragas 的 SingleTurnSample 接受字符串或字符串列表——但当你把 DeepEval 的 list 直接塞进 Ragas，某些指标（比如 context_relevancy）内部会把它当单个长字符串切分，导致误判。

实操建议：

立即学习“Python免费学习笔记（深入）”；

统一用字符串拼接： "\n\n".join(retrieval_context_list) 再传给 Ragas，避免它误触发 list 处理逻辑
DeepEval 中若要保留 chunk 边界信息，别用 retrieval_context 字段，改存到自定义字段如 metadata["chunks"]，后续单独处理
两个框架都调用 LLM 打分时，注意它们默认用的模型不同：DeepEval 走 gpt-4（可配），Ragas 默认用 gpt-3.5-turbo，混用前先对齐 base model，否则分数不可比

本地跑 Ragas 指标卡在 `embeddings` 步骤

Ragas 默认启用 HuggingFaceEmbeddings（基于 sentence-transformers/all-MiniLM-L6-v2），首次运行会自动下载 400MB 模型。如果网络受限或没设缓存路径，它会在 transformers 的默认目录下卡住，且不报错，只干等。

实操建议：

立即学习“Python免费学习笔记（深入）”；

手动下载模型：去 HF 页面下 pytorch_model.bin + config.json + tokenizer.json，解压到本地路径如 /models/minilm，再初始化时指定：HuggingFaceEmbeddings(model_name="/models/minilm")
临时关 embedding：用 RagasEvaluator(..., embeddings=None)，跳过所有需向量的指标（context_relevancy, answer_similarity 等），先验证 pipeline 其他环节
别用 ragas.evaluate() 一键全跑——它默认开全部指标，包括最耗 embedding 的几个；按需传 metrics=[faithfulness, answer_relevance]

RAG 评估真正的麻烦不在装包或写 metric 名，而在数据格式的隐式约定和标注成本。哪个字段该是 list、哪个必须是 string、哪个空值能忍哪个空值直接崩——这些细节不试三次根本记不住。

Python 中 for 循环与变量作用域的入门解析

Python 时间计算中的夏令时陷阱

Python sys.meta_path 的自定义导入器

Python 性能回归测试的自动化

Python httpx vs requests 在测试中的选择

相关标签:

python json String 子类字符串 gpt embedding

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python 资源获取即初始化的设计理念下一篇：Python 线程池 ThreadPoolExecutor 的使用优化

作者最新文章

微信电脑版文件已过期或被清理怎么恢复微信电脑版文件被清理恢复方法

2026-02-19 12:57

GitHub 仓库怎么上传文件？文件上传与提交方法讲解

2026-02-19 13:03

Python HSM（硬件安全模块）的 Python 接口

2026-02-19 13:34

天猫养车附近门店怎么找？附近天猫养车店地址

2026-02-19 13:36

edge网页版官网入口 Edge在线服务访问说明

2026-02-19 13:38

Python PyScript / Pyodide 的前端集成实践

2026-02-19 13:52

手机淘宝如何开店注册？手机淘宝如何开店注册店铺

2026-02-19 13:59

SQL 事务日志分析与优化实践

2026-02-19 14:21

Python 时区转换的常见 Bug 总结

2026-02-19 14:23

腾讯会议电脑版无法开启视频怎么办

2026-02-19 14:25

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

442

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

544

2023.08.23