潮州护角胶厂家 李飞飞再出手,空间智能的ImageNet来了 - 任丘市奥力斯涂料厂
任丘市奥力斯涂料厂
任丘市奥力斯涂料厂

潮州护角胶厂家 李飞飞再出手,空间智能的ImageNet来了

2026-05-23 05:22:30

潮州护角胶厂家 李飞飞再出手,空间智能的ImageNet来了
泡沫板橡塑板专用胶

ImageNet 之后潮州护角胶厂家,李飞飞再出手!

李飞飞团队新发布ESI-Bench——个门用来评测具身空间智能的新基准。

过去的空间智能评测默认给模型优观测,而 ESI-Bench 个把观察者变成行动者,闭了感知 - 行动回路。

它为具身空间智能域提供了个系统的评测框架,覆盖人类核心空间认知能力的四大维度。

论文的核心结论是:现在的 AI 看图很厉害,但离「会动、会摸、会主动找答案」的空间智能还差得远。

ESI-Bench 是什么

ESI-Bench 发布的背景,是由于目前的空间智能 benchmark,测的都是「被动感知」。

把张或几张图片扔给模型,问「A 物体在 B 物体的左边还是右边」「这个杯子能装多少水」「抽屉里有没有东西」,这样的题目测出来的是模型的视力,而非空间理能力。

反观人类是怎么做的?人类会站起来绕到物体背后去看,会把抽屉拉开,会把水倒出来量量。

这就是 ESI-Bench 的核心立场:把观察者变成行动者。

现实世界里,智能体须像人类样,主动决定行动、获取证据,再基于新观测做下步判断。团队把它称为「感知 - 行动回路」(Perception-Action Loop)。

ESI-Bench 就是这样套越现有基准的空间智能新评测基准,它包含 10 个任务类别,29 个子类别,3081 个任务实例,全部在 OmniGibson 仿真平台上构建,场景素材来自 BEHAVIOR-1K 场景库。

所有任务围绕 Spelke 的四大核心知识系统设计,也就是人类婴儿天生就具备的空间直觉:物体表征、布局与几何、数量表征、目标向行动。

它的关键设定在于行动强制。每道题,AI 智能体须主动行动才能拿到足够信息作答。模型不能坐在原地等图片,它要决定往哪走、看什么、拿什么、怎么操作。

举几个具体的例子:

比如评测中有道「刚容纳」题:给定几个容器和几个物体,要求把物体全部装进去。有的容器开口小、有的内部有隔板、有的盖子需要掀开才能看到真实容量。

模型须走近、俯身、甚至把容器拿起来从底部观察,才能判断能不能装得下。

还有「液体体积」题:两个杯子,从外观看不出容量差异,模型需要把水倒进去测试,或者直接拿起来掂量。

这么说,大应该也能直观感受到这套评测基准的设计理念:

正确答案不在任何单张图片里,智能体须主动行动并理出正确结果。

团队特别指出,与此前工作相比,ESI-Bench 在三个地有所越:

从空间感知到空间能力:在这里,智能体不仅根据他们能感知到什么来评估,还根据他们是否知道部署哪些具体能力来解决空间任务来评估;

选择感知:智能体须确定哪些观察值得获取,优先考虑与任务相关的信息而不是冗余或信息的输入;

解决感知歧义:智能体须通过误观察进行理,以断隐藏的空间结构和越直接观察的潜在物理约束。

测完发现了啥?3 个核心结论

团队拿当前强的多模态大模型做了测试,包括 GPT-5 和 Gemini 系列。

这是主要的实验结果图,包含了 ESI-Bench 在被动感知、主动探索、Oracle 三种范式下的各项任务准确率,涵盖 2D+VLM、3D+LLM 及人类基线。

奥力斯    万能胶厂家    联系人:王经理    手机:18231788377(微信同号)    地址:河北省任丘市北辛庄乡南代河工业区

核心结论有 3 个潮州护角胶厂家。

,感知不是瓶颈,行动才是。

好消息是,主动探索确实有。在没有额外指令的情况下,智能体自发涌现出多种空间策略。

比如绕到物体背后观察(move-behind)、切换俯视角度(top-down)、把物体拿起来(pick-up)、把水倒出来验证(pour-out)。

Gemini 3.1 在「部分遮挡」任务上,如果给到佳观察视角,准确率从 14.6 暴涨到 95.1。

这说明,模型本身的感知能力是好的,只要给对视角,它就能看得懂。

但问题在于,模型自己找不到那个对的视角。

糟糕的问题在于,被动多视角策略不仅没用,反而有害。

让 GPT-5 多看几张随机角度的图片,空间距离任务的准确率从 53.9 降到 49.1。图看得多了,分反而低了。

GPT-5 和 Gemini 3.1 在主动探索中达到正确答案所需的平均步数

团队把这个现象命名为「动作盲视」(Action Blindness),个差动作致个差视角,差视角触发差动作,形成不可逆的联失败。

在结构围任务上,主动探索策略和上帝视角的差距达 49.7。

也就是说,空间智能的卡点不在于视觉模型不够强,而是行动策略几乎为。

二,3D 重建不是药,不的 3D 比 2D 坑。

既然 2D 被动看图不行,那上 3D 呢?这也是当前很多具身智能团队的路子,先重建三维场景,再在场景图上做理。

结果发现,如果给的是真值 3D(上帝视角的几何),那确实很强。

Gemini 在材质透明任务上,pvc管道管件胶2D 版本得分 44.0,3D 版本得分 60.4,提升 16.4 个百分点。在需要精确度信息的任务上,3D grounding 有优势。

但如果是真实重建呢?团队用当前的 VGGT 模型做场景重建,再把重建结果喂给理模型。

结果那叫个惨不忍睹:几何配置任务上,2D 基线得分 27.5,VGGT 重建后的场景图得分只有 9.9。

这说明,不的 3D 不是中失败,它是负向失败。几何伪影、遮挡补全错误、度估计偏差,把这些失真信息编码成场景图,就等于给理模型喂了份「有毒」的输入。

相比之下,2D 虽然信息少,但至少不失真;3D 如果重建质量不过关,比 2D 还不如。

三,元认知缺陷:模型不知道自己看没看够。

论文里还有组对比实验,探讨了智能体和人类的空间理能力究竟还有多大差距。

结果发现,尽管人类与模型之间存在感知差距,但该差距可能比普遍认为的要小。

在部分类别中,模型的被动表现甚至能与人类持平或越人类。

在真实轨迹条件下,Gemini 在部分遮挡任务上达到 88.4 的准确率,而人类为 87.4;GPT-5 在材质透明度任务上达到 96.3,人类则为 97.2。

然而在主动探索场景下,二者的差距急剧显现。

人类凭借明确的观察目标和停止时机,表现远模型,且主动探索的表现接近真实轨迹下的被动表现。

例如在物理接触任务中,人类准确率为 88.3,而 GPT-5 仅为 64.2;在材质透明度任务中,人类准确率为 93.6,Gemini 3.1 则为 52.3。

通过分析模型与人类的探索轨迹,团队发现人类表现出强的认知谨慎:在做出判断前会收集多观测,主动寻找可能证伪当前假设的视角,并在模糊情境下降低置信度。

而模型则会过早停止探索,即便证据存在模糊,也仅在少数步骤后就以置信度做出判断,进而产生与场景状态相悖的空间幻觉。

模型的过度自信,还因动作选择的向偏差而加剧:模型不会探查正交角度或寻找能翻初始印象的视角,而是反复向同向移动,积累的是冗余信息而非有观测。

团队把它定为元认知(metacognition)缺陷:模型不知道自己不知道。

它缺乏种内建的「怀疑机制」,法评估当前信息是否充分,法根据矛盾证据调整信念。

这个问题从根本上区别于感知能力,也是个加底层的挑战,仅靠强的视觉编码器或多的探索步骤法解决。

论文作者

后,再介绍下这项工作的作者团队。

作是Yining Hong。

Yining Hong,斯坦福大学的博士后,师为 Yejin Choi 教授,同时受到 Leonidas Guibas 教授、吴俊教授和李飞飞教授的密切指。

她曾在 UCLA 获得计机科学博士学位,本科就读于上海交通大学电子工程系。

此外,她还是名职业音乐,平时会和乐队起巡演,同时也是 CVPR 2026 的社交主席,负责组织 CVPR 招待会和音乐表演。

Jiageng Liu(刘耕),加州大学洛杉矶分校(UCLA)Mobility Lab 的博士生。

其本科就读于浙江大学竺可桢荣誉学院及计机科学与技术学院的图灵班,获人工智能学士学位。

Han Yin,清华大学本科生,斯坦福大学 Intern,业为计机科学与技术。

李飞飞、吴佳俊(Jiajun Wu)、Yejin Choi,三位斯坦福教授,也同时出现在作者列表里。

另外还有来自西北大学的 Manling Li 教授和斯坦福的 Leonidas Guibas 教授参与。

参考链接:

[ 1 ] https://arxiv.org/abs/2605.18746

[ 2 ] https://esi-bench.github.io/

键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  完  —

属 AI 产品从业者的实名社群,只聊 AI 产品落地的真问题   扫码添加小助手,发送「姓名 + 公司 + 职位」申请入群~

进群后,你将直接获得:

  � � 新业的 AI 产品信息及分析 � �  

  � �   不定期发放的热门产品内测码 � �

  � �   内部属内容与业讨论 � �

� � 点亮星标 � �

科技前沿进展每日见

相关词条:设备保温     塑料挤出机厂家     预应力钢绞线    玻璃丝棉    万能胶厂家

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定潮州护角胶厂家,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。