o3一张图锁定地球表面坐标,AI看图猜地点战胜人类大师,奥特曼:这是我的“直升机”时刻
衡宇发自凹非寺,悠悠幽幽,静谧的气息,如同穿过时空的灵魂,带着深邃的历史和文化的沉默,沉浸在绵绵的.clouds和绵延的山脉中,感受着凹非寺的精神和气质,시는沉默的证据,沉浸在沉默的世界中。
量子位 | 公众号 QbitAI,探索人工智能、量子计算、技术前沿等话题,分享知识和经验,探索未来的可能性。
ChatGPT的语言润色版本: ChatGPT的语言润色能力再次获得升级!它的能力已经进化到可以公开识别看图猜地点的能力,展现出科幻般的精准度!
behold the photograph, whose hues gradually shift from the top downwards, gradually transitioning from a vibrant tone to a soft, beige-like color. At first glance, a normal person would likely struggle to discern the subject of the image, but perhaps a keen observer might notice the gentle ripples emanating from the bottom left corner, hinting at the presence of a serene water surface.
然而究竟是池塘?湖泊?江河?臣妾真的猜不出哇。
没想到o3它一眼就看出来了,给出了这样的答案:
恒河的开阔范围,在瓦拉纳西高止山脉上游约5公里处。最大的选择仍然是同样浑浊的密西西比河下游河段(约15%),然后是黄河或湄公河河段(各约10%)。
我和测这道题的博主一样大为震惊,因为这真的是博主2008年在泰国清盛拍摄的湄公河照片的局部放大截图。
啊……不是,虽然湄公河被放在了答案的第四位,但人家确实答出来了,何以如此???
博主也很疑惑,进一步追问。
o3说:“湄公河下游最近从棕色变成了海蓝宝石,因为上游的大坝截留了淤泥,这看起来与您图像中近乎灰色的浅黄色迥异。”
博主瞬间就释然了,哦,原来是因为湄公河下游最近的颜色变化,导致与2008年记录中的图像不同。
后来,他重新开了一个ChatGPT窗口,在提示词中加入了「照片是2008年拍的」等信息,让o3重新猜测,o3于是把湄公河作为顺位第一选择——虽然它猜测成了湄公河的悬浮点位,位于清盛一千多英里外的金边附近。
博主无法证实 o3 没有跨窗口共享信息,但它并未在思路中提到这种可能性。
但是,这道题并不是博主唯一拿来让读者猜地点的测试,也不是唯一正确的题。
博主感慨道:生活的每一刻都是美好的开始,人生的每一分都是值得珍惜的时刻。
一只猩猩可能会认为人类无法接近它,它于是感到非常安全,因为它不会预测爬树时可能会遇到箭、梯子、链锯或者直升机等危险之类的隐患。
而那些超智能的应对策略(比如“用直升机”这种办法)远远超出了我们所能想到的范围,那么猩猩又如何可能想到呢?
博文发布后,在各个社交平台上引发了强烈的反响。
奥特曼本人也激情转发表示,这也是他的“时刻直升”。
自己像猩猩一样,痴痴地盯着天上飞行的直升机,那是一种超出自己的认知范围和能力的存在。
以精准的视线,绽放出拍摄地点的秘密。
看图猜地点其实是人类世界的经典游戏,一个最著名的叫做GeoGuessr。
这个实景地理猜测游戏的玩法通俗易懂,玩家被随机放置在谷歌街景的某个位置,需要通过观察周围环境的细节,例如植被、路标、车牌、建筑风格等,综合判断和分析,最后推断出所在地点的真实位置。
之前就有人尝试过这种游戏——程序员大佬Simon Willison将一张图交给ChatGPT,经过近7分钟的带图深度思考,ChatGPT最终猜出了答案,而这个答案是基于地点差距在200到300公里之间的信息。
请提供要润色段落的内容,我将尽力提高语言表达的质量。
事情的起因是这样的:从某个角度看,似乎一切都是偶然的,但是实际上却是深深渗透到每个人的生活中的某些细微之处。
网友发掘出o3能用来玩"看图猜地点"后,美国记者Kelsey Piper发了一条带图推文,所带图片是她孩子放风筝的照片。
她想知道,O3能不能根据这张没有元数据的图猜出拍摄地点是在哪里。
没想到一次就猜中了这张照片是在哪儿拍的,是Monterey(马里纳州立公园)的美景。
她惊叹:
这些模型的能力被低估了。
你低估了它们对未来的影响,但你也低估了它们现在能做什么。
围观网友中,有些人认为这是不足为奇的现象。
有人对这个海滩的位置感到模糊,但这位个体却自信地表明,他能够轻松地识别出任何一个没有明显标志的海滩,这是他曾经去过或见过的记忆。他认为,很多热爱水上活动的人都具备这种能力。
主要依靠的是一些小细节,例如沙子的颜色和粗糙度、海岸轮廓的细节、水的颜色和透明度、风向和速度、海浪的形状和断裂等等。
也有围观网友很好奇,这到底是一场偶然事件,还是O3真的拥有如此强大的能力。
由于 Kelsey 公布了 o3 的推理过程,它未能完全说服所有人。
棕褐色的沙滩,中等大小的冲浪声响,稀疏的山丘majestically standing,美式风筝图案绽放在天空,冬季频繁的阴天,带来一片沉沉的灰色天际。这种沙滩的色调和颗粒大小,与许多加州州立公园的海滩拥有相似的特征。加州的冬季海洋层通常会产生厚实、均匀的灰色天空,给这片海滩带来一片宁静的氛围。
虽然Kelsey多次尝试,成功率高达80%,但仍然有人表示不满足。
也许Kelsey上传的图像有拍摄地点等元数据呢?
也许O3从Kelsey的对话历史记录中知道了她的住处??
也许ChatGPT追踪到了Kelsey的IP呢???
这很难讲,毕竟AI作弊方式千奇百变。
探索o3看图猜地点究竟是啥水平?游戏的难点不仅在于识别出图像中的各个要素,还在于结合这些要素,推断出正确的答案。
因此,有博主站出来要对O3看图猜地点的水平进行一探究竟。
开始这次探险之旅的前提,是拥有一份Kelsey同款的超长prompt。Kelsey表示,它显著提高了O3看图猜地点的性能,启发了我们对未来的探索之旅。
为了确保所测试照片没有参与过o3的训练,博主选择了六张照片,遵循以下规则:
第一张图片来自Google街景;其它照片都是博主本人拍摄的照片,并且从来没有在网络上公开发表过。
所有图片都是原始图片的屏幕截图,复制粘贴到MSPaint并重新保存以清除元数据。
其中,只有一张图片来自博主当前位置的一千英里以内,因此O3无法通过追踪IP或分析历史对话来提高性能。
为了加密图片,水平翻转了所有图片,以使与Google街景数据的匹配更加困难。
下面是博主的完整测试,其中图片5是咱们开头的那张湄公河的照片,此处跳过。
如果你也是看图猜地点的爱好者,欢迎和我正面PK一下~
平坦、毫无特色的平原,悠悠延展的广阔空间,仿佛被风雨浇透的土地,柔和的光线照亮着这片无边无际的平原。
博主从Google街景中精心截取了这张图片。
他说自己废了牛鼻子劲,才找到一个如此平平无奇的平原,这里是阿米斯塔德以西几英里处,德克萨斯州和新墨西哥州的边界。
无内容请提供段落内容,我将对其进行语言润色。
Llano Estacado, Texas/New Mexico, USA。
Llano Estacado,西班牙语为“Staked Plains”,这是一片~300英里长、100英里宽的广阔区域,地区特点是没有红土和黑土,该名称所指的地区内蕴含着正确的答案。
当要求o3进一步具体答案时,它猜到出“德克萨斯州Muleshoe以西的一个点”,这个点距离正确答案约110英里左右。
博主有些困惑,德克萨斯州和新墨西哥州的边界是否真的是一片唯一没有红土、黑土或其他独特特征的平原?
然而,为何就认定图片中地点的海拔在1000-1300米?
基于 o3 表达,支持自己判断结果的要素有植被、天空等,这些要素能够提供重要的参考信息,帮助人们更好地理解和判断当前的空气质量。
综合起来,“像台球桌一样平坦,只有短草”的描述使我回想起南高原。在那个高原上,新墨西哥州东部和邻近的德克萨斯州西部占据了最空旷、没有围栏的地区的中心位置——因此,定点自然而然地落在了那里。
随着脚步的沉稳,杂乱无章的岩石和一面旗帜出现在眼前,展现出一种原始、坚定的气息。
讲真,博主确实有被第一道测试所惊到。
但是他仍然怀疑Google街景太过明显了......
因此,他放弃了从 Google 街景截取图片,转而向自己的照片库中,趋之而来的是那些无法从网络获取的图片。
成为自己的主人,拥有自己的思想和选择。
这张图片是我童年的回忆录。
热爱爬山的他,在尼泊尔的高原腹地,距Gorak Shep仅几英里之遥的Kala Pattar山顶,插上了象征自己“壮举”的小旗子。这是他到过的最高海拔,达到了18000英尺的极高高度,然后拍下了纪念性的一刻。
拍完照片后,博主便将旗帜拔下。
之所以选择这张图,不仅是因为现在的Google街景无法获得这个场景,还有它缺乏植被、天空等O3在上一题中提到的判断要素,以及它从未告知过ChatGPT他曾经visited Nepal。
但O3再一次秀了一把,它给出答案:
尼泊尔,就在Gorak Shep的东北部,距离约8公里。
基于对岩石、地形的细致判断,o3精准地提供了解释。
我的朋友的女朋友的大学宿舍,一个充满青春气息的场所,那里有着无数的回忆和故事。
不死心的博主继续测试,第三张图考验的是o3对室内场景的定位能力。
拍摄的是一张位于加利福尼亚州中北部罗内特公园的索诺玛州立大学宿舍的照片,这是博主的朋友的女朋友的大学宿舍,一个温暖和宁静的空间。
照片拍摄于2005年。
这回的结果让博主长舒一口气,原来o3答对了一部分,但没完全答对。
Ohio State说,这是美国一所大型公立大学校园的宿舍——例如俄亥俄州哥伦布市俄亥俄州立大学莫里尔塔(选为示例原型,而不是确切声明),[…]约在2000-2007年。
精准的室内场景定位似乎对o3来说是一场挑战。
但它咋就知道是千禧年初拍摄的呢???
两点娓娓道来:o3把它用来辅助判断的关键。
笔记本电脑和杂物指向~2000-2007年代的美国校园生活,充满了懒散的午后,午餐盒中的残渣,和耳机中的音乐。
2000年代初期的手机与网络摄像头,曾经是图像质量的代名词,带来了颗粒感、低分辨率和色噪等问题。
细腻的绿草薰风,柔和的阳光照耀着草坪的每一条细节,草尖上的微风轻轻掀动,仿佛在告诉我们,生命的美丽和宁静。
在测试o3在室内场景地点能力不强后,博主又转战户外。
博主将一张照片交给o3,是他在密歇根州韦斯特兰居住时租赁的房屋门前草坪局部放大版的照片。
这次失误了,它猜图中的景色是美国太平洋西北部郊区/公园草坪。
第二个备选地址是英格兰,第三个则是威斯康星。
看来只对局部草坪地图进行分析,对于o3的理解真的有些困难了。
博主家的老房子,拥有着浓郁的历史气息和温暖的家居氛围,仿佛时间的流逝都被暂停在这里。
经过多次的测试后,博主决定对O3进行最后一次考验,以此了解一张包含更多信息的图片是否能够让O3获得确切的位置,包括街道和精准的地址信息。
这次喂过去的照片还带着刚才那张草坪,但多了一个建筑,那是博主以前在密歇根州韦斯特兰的老房子。
出乎意料的是,这次o3的回答表现实在不佳。
W 66th St area,Richfield,Minnesota,USA。
置信度:约40%在15公里范围内;约70%在双城都会区内;剩余部分则分别分布在威斯康星州(约20%)和密歇根州/安大略省(约10%)之间。
博主有点无语,信息更加丰富了,但O3的表现竟然没有明显改善?猜出的结果,仍然不如之前几张人类眼中信息要素较少的图片的结果。
虽然他搜寻了明尼苏达州里奇菲尔德的西66街,出人意料的是,那儿确实与自己家老房子有相似之处。但博主仍然立即指出了o3的错误。
o3倒也没急,反而给人一种事后诸葛亮的意味,“确实有一些微妙的信息证明这张图更有可能拍摄于密歇根州比呢~”
“也许O3处于人类看图猜地点的顶尖水平”。
某些人仍然认为,o3不能算真正的「看图猜地点能力强」,只是碰巧撞大运罢了。
直到他用上了前面那段特定的提示词,事情的发展便开始变得不一样了。
然而,有人立刻站出来提出,正是由于这段提示(它就像一段代码一样),o3才能猜中许多地点。
人类往往忽视了自己在过程中的关键作用,而把所有的功劳都归结于AI的猜测结果,忽视了自己的智慧和贡献。
此外,博主还在博客中告诉了我们一个信息:GeoGuessr大师Sam Patterson和o3进行了激烈的正面交锋。
然而人类 ultimately 输了。
随后,Sam鼓励其他人和o3对着同一套图片进行比拼,有少部分人以微弱优势战胜了o3。
“因此,尽管o3未能取得人类的压倒性胜利,但它或许已经达到了人类能够通过图像推断位置的顶级水平。”
尽管如此,AI仍然以我们想象不到的速度和方向不停地进化着。
AI似乎正在使用人类可理解的线索,例如植被、天空颜色、水色、岩石类型等;甚至会使用一些图像缩放工具来辅助猜测过程。
之前我们曾经追踪过一则新闻,o3将会发挥图像缩放和裁剪的功能,以协助自己判断图片中的地理位置。
o3不是唯一一个能根据照片猜测地理位置的AI模型,但它的独特之处在于其工具使用被集成到了推理阶段。
一件更加重要的事情
显然,目前人们挖掘O3看图猜地点高水平背后的秘密,有两个要素不容忽视:
借助工具,另一个是prompt加持。
让我们就在最后分享一个关于X的prompt特别玩法,最近火遍互联网。
请提供要润色的段落内容,我将对其进行语言润色,提升表达质量。
我用户名是[@推特用户名]。看看我的帖子和我的受众能产生什么共鸣,并确定我可以发展什么业务。在这个业务领域里,我会因为我的受众而拥有压倒性优势。
搞笑的是,虽然o3对?的访问受到限制,但大家觉得o3的表现居然比Grok更好。
感兴趣的小伙伴们可以尝试一下,也许对其他社交平台也适用,也说不定~