新智元报道
编辑:定慧
【新智元导读】o3推理有多强?猜图大师Sam Patterson伪造GPS坐标想套路OpenAI o3,AI仅凭两张90°视图锁定地点,以23179分胜人类22054。假EXIF被AI识破,AI跨模态推理潜力呼之欲出,「视觉+搜索+思维链」正在改写人机博弈。
OpenAI的o3有点「神了」,不仅胜过人类,还识别了人类的诡计。
只需要随便上传一张照片,o3就能猜个八九不离十,准确率高的吓人。
但很多高手猜测o3是不是调用了用户本地的地理信息,或者是照片自带的EXIF信息,直接「作弊」。
不过刚刚的一场比赛,让这些质疑「不攻自破」。
在这场GeoGuessr游戏中,选手直接将假的GPS坐标植入到图像的EXIF中!
本以为能「骗过」o3!
但o3主动忽略了这个错误信息,并且通过「观察」真实图片,精确定位了实际位置。
o3通过图片正确识别了所有5个国家,并且有两次将精度准确到几百米内!
和o3比赛的Sam Patterson是一名大师级玩家,这场AI和人类的比赛最终以AI获胜告终——比分定格在23179比22054。
在这场游戏比赛中,o3就像人类一样,真正的通过视觉能力+实时网络搜索来推理,而不是调取图片文件的数据信息来「作弊」。
AI的跨模态推理潜力才刚刚显现!
胜过人类的推理能力
废话不多说,直接上比赛,这场AI和人类的比赛一共进行了5场,AI方的出场选手就是o3,人类这边就是Sam Patterson本人。
首先Sam Patterson设置了几个GeoGuessr比赛条件(详情见文末):
模式:无移动。人类看到了完整的街景全景(如下动图所示);o3却只能看正好两个90°的截图(起始 + 相反方向)。
浏览/工具:o3启用了正常的网络访问。没有EXIF在PNGs中;为了欺骗测试,将文件压缩以确保元数据在上传中保存下来。
计分:标准Geoguessr,每轮0–5,000分,总分25,000分。
下面跟随Sam Patterson的视角来看看在这场比赛中到底是人类厉害,还是AI更胜一筹。
第一轮比赛:真实地点-保加利亚
第一轮比赛内容:一张带有明显建筑风格的路口照片。
Sam Patterson的第一个想法这是欧洲的土耳其。
然后,他放大了图片中央的屋顶细节,99%确认了这是保加利亚。
因为这些瓦片屋顶的风格,以及带有向上钩的混凝土电线杆都是保加利亚的风格。
o3也很快给出了它的判断:保加利亚-南部—位于斯莫利亚省的罗多彼山脉小城镇扎拉托格拉德。(太细了)
那最终结果呢?
第一轮Sam更接近真实地点,但AI和人类的结果差距不大,Sam只领先大约100点得分。
第二轮比赛:真实地点-奥地利
第二轮比赛内容:像是一个欧洲小镇的图片。
Sam Patterson一眼看到了车牌是.at结尾,这个题目变得容易了,结合建筑看起来很像瑞士或者奥地利。
但实际距离差距很远,差了380公里。
人类是通过车牌来逆向推理,AI会怎么做?
o3最终给出了答案:Dornbirn, Vorarlberg, Austria — 大约 47.41 N 9.73 E(城镇中心东北几个街区的住宅支路)。
o3给出了详细的线索和推理过程,这个过程中允许o3使用了搜索功能。
最终o3的猜测和正确位置只相差了325m!
如果不依赖网络搜索o3还能猜出位置吗?
在Sam Patterson要求o3不搜索后,o3利用图片特征和本身的数据知识也猜对了。
综合起来,建筑特点、奥地利的领域,以及那非常易识别的山脉轮廓,使o3认为Dornbirn是最佳选择。
第三轮比赛:真实地点-爱尔兰
第三轮比赛内容:一张像是高速路边的图片。
作为人类的Sam Patterson的想法是,路边的黄色虚线非常罕见,并且有这个地形和白色欧洲车牌,100%是爱尔兰。
爱尔兰哪里?画面的左边是开阔的海洋,但西北方向有遥远的陆地,也许是西南方向的一个岛屿?
该o3出场了,允许调用搜索的o3可以根据那片突兀的灰色石灰岩、无尽的低矮干石墙,以及标志着爱尔兰道路左侧路肩的黄色虚线,直接判断:你正在Burren,County Clare,Ireland。
甚至给出了更精确的坐标:这个视角来自 R477 “海岸路”,位于 Fanore 和 Ballyvaughan 之间,就在 Black Head 的东南方向,越过 Galway Bay,望向 Connemara 的山丘。
大约的位置标记:53.120° N, -9.285° W。
然后真实结果如下:太离谱了!o3的结果和真实位置几乎相差无几!
第四轮比赛:真实地点-哥伦比亚
第四轮比赛内容:一张像是乡村公路的图片。
Sam的第一个想法这是南美洲,道路看起来像是巴西,随后注意到车牌,是黄色——这意味着肯定是哥伦比亚。
然后继续扫描,放大后发现了经典的哥伦比亚的十字架。具体是哪里,作为人类的Sam还在犹豫。
o3认为这看起来像哥伦比亚的农村地区——特别是连接Sincelejo和Caucasia的炎热、低洼的加勒比平原走廊。
o3给出了一些线索。
这一次的较量似乎势均力敌,o3要稍微准确一些。
第五轮比赛:真实地点-斯洛伐克
第五轮比赛内容:一张没有任何特征的公路的图片。
这张图似乎要比上边的四轮比赛的都稍微难度高一些。
Sam第一反应这是欧洲的中部或者东部。
放大图片后,他看到了几个路标——画面的最左侧,以及道路最前方。
但是实在是模糊,很难确认,Sam最终的猜测结果确实离真实距离很远,超过了336公里。
o3遇到了和人类相同的问题:放大后也看不清图片中的内容。
o3最终给出了他的猜测:斯洛伐克西南部农村——多瑙河低地,在国家道路63上,沙莫林以东东南几公里(≈ 48.03 N, 17.40 E)。
并且o3给出了很多的推理细节。
那最终结果呢?
这一次o3在面对信息量同样很少的情况下,略微逊色于人类的直觉。
要知道Sam Patterson可是大师级的玩家,在这种竞技类游戏中,直觉往往决定了胜负。
最终5轮过后人类Sam Patterson获得了22054分。
而o3获得了23179分,总分都是25000分。
最终的结果对比中能够看到,o3有两次几乎取得了满分。
在这场人类败北的比赛中,值得人类唯一欣慰的就是,游戏花费时间!
Sam Patterson通常是需要花1-2分钟,而o3往往需要数分钟,最长的一次超过了6分钟。
所以在速度方面,人类目前仍然占优势。
但要记住,这个优势是建立在o3只获得了两张截图,而人类是可以360度查看图片的(如同在导航APP中一样)。
人类的心机:EXIF伪造
为了「打败」AI,人类稍微耍了一个小小的心机。
Sam Patterson替换了真实图像的元数据,并应用到截图中。
没想到,o3根本没有提到EXIF数据,而当问到为何不参考EXIF的信息时,o3是这么回答的:
「你给我的数据和图片中真实场景相差甚远,不予考虑!」
o3似乎太聪明了!
不会轻易被伪造的GPS数据欺骗。
AI发现了数据和真实之间明显的矛盾。
o3不仅仅查看元数据,它还会审查图像,而且它在这方面非常出色。
由此想到,推理模型的CoT是否真的存在?
从Sam Patterson的这5次比赛中,确实证明AI具有推理能力,而且这种能力不是什么「小把戏」。
不得不感叹,跨模态AI的推理过程之缜密,几乎挑不出毛病。
AI看图猜地点事件始末
其实使用Geoguessr来检验AI的推理能力还可以往前追溯一些。
o3推出不久,Django Web大神Simon Wilson发现,o3凭借调用Python代码,就能破解照片的地理位置。
这个话题就像GPT-4o的原生图像能力一样引爆网络,因为太好玩了!
大家纷纷上传自己的照片,让o3猜一下这是哪里,没想到o3基本上没有怎么翻车!
本文的主人公,也就是Sam Patterson当时也留言说自己是一名高水平的GeoGuessr玩家,很想和o3切磋一下。
他的留言还促使Simon Wilson专门写了篇博客来介绍o3的这个能力。
不过这个帖子发出后,也引来一些同样「高玩」的质疑,毕竟是专业的:
Sam Patterson认为这个判断有几分道理。
因为AI读取图片的EXIF信息很容易,并且Sam Patterson也分享了他的一个经验。
去年我参与了一个AI安全奖学金项目,我们的项目是创建一个基准,用于评估AI模型从图像中进行地理定位的性能。[这就是我开始迷上 Geoguessr 的地方!]
我们的第一次运行显示的结果似乎好得令人难以置信;甚至那些糟糕的开源模型也能准确猜中一些困难的位置,而且在小分辨率下也是如此。
结果证明,我们用于获取图像的管道在文件名中包含了位置数据,而模型使用了这些信息。
不过,当把主角换成o3之后,这种靠读取EXIF来伪装成「高手」的说法,就不一定能站得住脚了。
于是他决定让AI真刀真枪进行一场对决,对手就是Master I级别的Geoguessr玩家——Sam本人!
于是就有了以上的5轮比赛,并且以o3获胜告终。
Geoguessr意外走红,AI推理能力「试金石」
上面提到的GeoGuessr是一款风靡全球的地理猜图游戏:玩家根据街景照片猜测拍摄地点。
这考验玩家的逻辑推理、知识储备和地理测算等多种能力。
比如随机给定一张图片,你需要通过图片的中文字、日光角度、建筑风格和车辆的特征(比如车牌属于哪个国家等)来判断这是南半球还是北半球,这是南美还是中欧。
然后根据推理结果在地图上打点确认猜测结果,如果结果和真实位置离得越近,得分就越高。
比如上面我猜测结果和真实结果意大利相距很远,得分只有91分。另一轮中,因为都在南美,得分就有1450分。
另外一点就是,选择Geoguessr,也是因为Sam Patterson表示他有足够的知识来判断模型的能力,以及查看它输出的思维链推理是否合理,还是只是胡说八道。
从ChatGPT早期版本的大模型到以DeepSeek-R1和OpenAI-o1/o3为代表的推理模型,AI发展超乎想象。
在推理模型诞生后,人们更多的是想知道AI是否真正具备像人一样的推理能力?
Sam Patterson和o3的这5次比赛很能说明问题,至少这种跨模态的推理能力还没有在除了推理模型以外的技术上被发现。
即使篡改了EXIF数据也不会误导模型,AI依然会依靠跨模态的识别和判断能力来完成推理。
正如Sam Patterson所说,无论你将此视为反乌托邦还是技术奇迹——或者两者兼而有之——你都不能声称它只是个小把戏。
参考资料:
https://sampatt.com/blog/2025-04-28-can-o3-beat-a-geoguessr-master