
作家:Zibo Zhou, Yue Hu, Lingkai Zhang, Zonglin Li, Siheng Chen
单元:上海交通大学,密歇根大学
论文标题:BeliefMapNav: 3D Voxel-Based Belief Map for Zero-Shot Object Navigation
论文运动:https://arxiv.org/pdf/2506.06487v1
代码运动:https://github.com/ZiboKNOW/BeliefMapNav
作家:Zibo Zhou, Yue Hu, Lingkai Zhang, Zonglin Li, Siheng Chen
单元:上海交通大学,密歇根大学
论文标题:BeliefMapNav: 3D Voxel-Based Belief Map for Zero-Shot Object Navigation
论文运动:https://arxiv.org/pdf/2506.06487v1
张开剩余94%代码运动:https://github.com/ZiboKNOW/BeliefMapNav
提议零样本主义导航系统 BeliefMapNav,通过构建3D体素信念图,将话语模子的语义推理与视觉镶嵌汇聚拢,竣事了对主义位置的精准推测和高效的全局导航有诡计。
提议3D体素信念图,整合了端倪化的空间语义信息和LLM生成的与主义考虑的语义陈迹,简略在复杂的三维空间中进行细粒度的主义位置推测,为机器东说念主在未知环境中寻找主义提供了更准确的携带。
在HM3D、MP3D和HSSD基准测试中,BeliefMapNav在奏遵循(SR)和旅途长度加权奏遵循(SPL)两个要津目的上均获得了起先进的性能,与之前的最好门径比拟,在HM3D上SPL目的有46.4%的显赫普及。
提议零样本主义导航系统 BeliefMapNav,通过构建3D体素信念图,将话语模子的语义推理与视觉镶嵌汇聚拢,竣事了对主义位置的精准推测和高效的全局导航有诡计。
提议3D体素信念图,整合了端倪化的空间语义信息和LLM生成的与主义考虑的语义陈迹,简略在复杂的三维空间中进行细粒度的主义位置推测,为机器东说念主在未知环境中寻找主义提供了更准确的携带。
在HM3D、MP3D和HSSD基准测试中,BeliefMapNav在奏遵循(SR)和旅途长度加权奏遵循(SPL)两个要津目的上均获得了起先进的性能,与之前的最好门径比拟,在HM3D上SPL目的有46.4%的显赫普及。
零样本主义导航:在践诺天下中,机器东说念主经常需要在莫得事前构建舆图或特定任务锤真金不怕火的情况下,把柄当然话语提醒找到主义物体,如在家庭环境中匡助东说念主们找到特定物品、在工业场景中定位故障部件等。这种技巧关于竣事机器东说念主的天真部署和泛泛应器具有费劲意旨。
现存门径的局限性:以往的商议主要分为两大类,一类是基于俯瞰图(BEV)的门径,固然简略提供主义位置的密集推测,但在位置阔别度和语义信息方面存在不及;另一类是哄骗大型话语模子(LLMs)或视觉话语模子(VLMs)进行主义位置推理的门径,但这些模子在空间相识和推理方面存在局限性,导致主义位置预测的准确性不高。此外欧洲杯投注入口,现存门径大多遴荐诡计的导航政策,导致搜索后果低下。
零样本主义导航:在践诺天下中,机器东说念主经常需要在莫得事前构建舆图或特定任务锤真金不怕火的情况下,把柄当然话语提醒找到主义物体,如在家庭环境中匡助东说念主们找到特定物品、在工业场景中定位故障部件等。这种技巧关于竣事机器东说念主的天真部署和泛泛应器具有费劲意旨。
现存门径的局限性:以往的商议主要分为两大类,一类是基于俯瞰图(BEV)的门径,固然简略提供主义位置的密集推测,但在位置阔别度和语义信息方面存在不及;另一类是哄骗大型话语模子(LLMs)或视觉话语模子(VLMs)进行主义位置推理的门径,但这些模子在空间相识和推理方面存在局限性,导致主义位置预测的准确性不高。此外,现存门径大多遴荐诡计的导航政策,导致搜索后果低下。
零样本主义导航(Zero-shot Object Navigation, ZSON)任务要求机器东说念主在未知环境中把柄当然话语提醒找到指定主义物体,而无需任务特定的锤真金不怕火、预构建舆图或固定词汇表。主义类别 以解放文本神气给出。
在每个时辰步 ,机器东说念主采取 RGB-D 不雅测 ,其中 和 ,以及本人的位姿 ,其中 和 。
动作空间 包括:上前出动(0.25米)、傍边转(30°)、潦倒看(30°)和罢手。任务奏效要求是机器东说念主在 500 步内,在距离主义物体 0.1 米内罢手。
零样本主义导航(Zero-shot Object Navigation, ZSON)任务要求机器东说念主在未知环境中把柄当然话语提醒找到指定主义物体,而无需任务特定的锤真金不怕火、预构建舆图或固定词汇表。主义类别 以解放文本神气给出。
在每个时辰步 ,机器东说念主采取 RGB-D 不雅测 ,其中 和 ,以及本人的位姿 ,其中 和 。
动作空间 包括:上前出动(0.25米)、傍边转(30°)、潦倒看(30°)和罢手。任务奏效要求是机器东说念主在 500 步内,在距离主义物体 0.1 米内罢手。
BeliefMapNav 是一个基于 3D 体素的零样本绽开词汇主义导航系统,包含三个要津模块:
3D 体素信念图:通过聚拢端倪化空间语义和 LLM 的知识知识,构建主义存在先验信念的 3D 体素信念图。
前沿不雅测信念推测模块:将先验信念图与及时不雅测响应聚拢,推测每个前沿视线范围内检测到主义的后验信念。
基于不雅测信念的贪图模块:通过优化预期旅途距离资本,弃取下一个导航主义,竣事高效的主义导向探索。
3D 体素信念图:通过聚拢端倪化空间语义和 LLM 的知识知识,构建主义存在先验信念的 3D 体素信念图。
前沿不雅测信念推测模块:将先验信念图与及时不雅测响应聚拢,推测每个前沿视线范围内检测到主义的后验信念。
基于不雅测信念的贪图模块:通过优化预期旅途距离资本,弃取下一个导航主义,竣事高效的主义导向探索。
3D 端倪化语义映射
多圭臬特征索求:将 RGB 图像分割成多圭臬的块,使用 CLIP 索求每个块的视觉特征,并使用 Segment Anything Model (SAM) 推测每个块中的语义实例数目。同期,将深度图像分割成对应的块,反向投影到 3D 空间造成点云,并诡计每个点云的体积和密度。
端倪化特征评分:瞎想端倪化特征评分器,分别为场景、区域和物体级别分拨置信度分数,弃取与特定语义级别最匹配的特征。
自稳妥端倪化特征弃取:在每个像素位置,弃取在对应语义级别评分器下得分最高的特征,并将其回投到 3D 语义图中。
多圭臬特征索求:将 RGB 图像分割成多圭臬的块,使用 CLIP 索求每个块的视觉特征,并使用 Segment Anything Model (SAM) 推测每个块中的语义实例数目。同期,将深度图像分割成对应的块,反向投影到 3D 空间造成点云,并诡计每个点云的体积和密度。
端倪化特征评分:瞎想端倪化特征评分器,分别为场景、区域和物体级别分拨置信度分数,弃取与特定语义级别最匹配的特征。
自稳妥端倪化特征弃取:在每个像素位置,弃取在对应语义级别评分器下得分最高的特征,并将其回投到 3D 语义图中。
哄骗 LLM(如 GPT-4)从主义物体形色中生成地标字符串和考虑性分数。地标分为房间、区域和物体三个级别,每个级别生成三个地标过甚考虑性分数。
哄骗 LLM(如 GPT-4)从主义物体形色中生成地标字符串和考虑性分数。地标分为房间、区域和物体三个级别,每个级别生成三个地标过甚考虑性分数。
将地标和主义对象称号编码到 3D 端倪化语义体素图中,诡计地标和主义对象与存储的空间语义特征之间的最大余弦一样度分数,并把柄考虑性分数加权,生成最终的 3D 体素信念图。
将地标和主义对象称号编码到 3D 端倪化语义体素图中,诡计地标和主义对象与存储的空间语义特征之间的最大余弦一样度分数,并把柄考虑性分数加权,生成最终的 3D 体素信念图。
可见性图用于捕捉及时检测响应对主义信念溜达的影响。关于每个像素,诡计其水平角度、垂直角度和距离的置信度分数,然后将像素反向投影到 3D 空间,更新可见性图。
可见性图用于捕捉及时检测响应对主义信念溜达的影响。关于每个像素,诡计其水平角度、垂直角度和距离的置信度分数,然后将像素反向投影到 3D 空间,更新可见性图。
将可见性图与信念图交融,诡计每个前沿视线范围内检测到主义的后验信念。关于每个候选前沿位置,评估四个标的的不雅测信念,并弃取最大值看成最终的不雅测信念。
将可见性图与信念图交融,诡计每个前沿视线范围内检测到主义的后验信念。关于每个候选前沿位置,评估四个标的的不雅测信念,并弃取最大值看成最终的不雅测信念。
通过优化预期搜索距离,弃取前沿打听规定。主义是最小化预期搜索资本,即旅途距离与不雅测信念的加权和。
使用 GPU 加快的模拟退火算法求解最优旅途贪图问题。在每一步,把柄更新的信念图从头贪图导航主义。
通过优化预期搜索距离,弃取前沿打听规定。主义是最小化预期搜索资本,即旅途距离与不雅测信念的加权和。
使用 GPU 加快的模拟退火算法求解最优旅途贪图问题。在每一步,把柄更新的信念图从头贪图导航主义。
数据集:在三个范例基准数据集上评估了 BeliefMapNav 的性能,包括 HM3D、MP3D 和 HSSD。
HM3D:包含 2000 个考证集 episode,溜达在 20 个环境中,涵盖 6 个主义类别。
MP3D:一个大领域室内 3D 场景数据集,考证集包含 11 个环境、21 个主义类别和 2195 个主义导航 episode。
HSSD:基于果然房屋布局的合成数据集,包含 40 个考证场景、1248 个导航 episode 和 6 个主义类别。
评估目的:使用奏遵循(SR)和旅途长度加权奏遵循(SPL)两个范例目的。
SR:谋划智能体在预设距离内到达主义的比例。
SPL:通过研讨奏效和轨迹优化来评估旅途后果。要是奏效,SPL = 最优旅途长度 / 内容旅途长度;不然,SPL = 0。
竣事细节:导航截至为 500 步,奏效界说为在距离主义 0.1 米内罢手。RGB-D 相机装配在 0.88 米高度,拿获 640×480 图像。3D 体素图有 45,000 个体素,分辨率为 0.25 米。系统开动在单个 RTX 4090(13GB VRAM)上。
数据集:在三个范例基准数据集上评估了 BeliefMapNav 的性能,包括 HM3D、MP3D 和 HSSD。
HM3D:包含 2000 个考证集 episode,溜达在 20 个环境中,涵盖 6 个主义类别。
MP3D:一个大领域室内 3D 场景数据集,考证集包含 11 个环境、21 个主义类别和 2195 个主义导航 episode。
HSSD:基于果然房屋布局的合成数据集,包含 40 个考证场景、1248 个导航 episode 和 6 个主义类别。
HM3D:包含 2000 个考证集 episode,溜达在 20 个环境中,涵盖 6 个主义类别。
MP3D:一个大领域室内 3D 场景数据集,考证集包含 11 个环境、21 个主义类别和 2195 个主义导航 episode。
HSSD:基于果然房屋布局的合成数据集,包含 40 个考证场景、1248 个导航 episode 和 6 个主义类别。
评估目的:使用奏遵循(SR)和旅途长度加权奏遵循(SPL)两个范例目的。
SR:谋划智能体在预设距离内到达主义的比例。
SPL:通过研讨奏效和轨迹优化来评估旅途后果。要是奏效,SPL = 最优旅途长度 / 内容旅途长度;不然,SPL = 0。
SR:谋划智能体在预设距离内到达主义的比例。
SPL:通过研讨奏效和轨迹优化来评估旅途后果。要是奏效,SPL = 最优旅途长度 / 内容旅途长度;不然,SPL = 0。
竣事细节:导航截至为 500 步,奏效界说为在距离主义 0.1 米内罢手。RGB-D 相机装配在 0.88 米高度,拿获 640×480 图像。3D 体素图有 45,000 个体素,分辨率为 0.25 米。系统开动在单个 RTX 4090(13GB VRAM)上。
性能对比:BeliefMapNav 在 HM3D、MP3D 和 HSSD 基准测试中均优于现存的零样本主义导航门径。
HM3D:与 InstructNav 比拟,SR 提高了 5.86%,SPL 提高了 46.4%。
MP3D:SR 提高了 0.27%,SPL 提高了 0.57%。
HSSD:SR 提高了 27.8%,SPL 提高了 28.9%。
性能分析:
在 HM3D 数据集上,BeliefMapNav 通过更准确的主义位置推测和优化搜索旅途,显赫提高了搜索后果。
在 HSSD 数据集上,性能显赫普及,因为合成场景幸免了 MP3D 和 HM3D 中存在的问题。
性能对比:BeliefMapNav 在 HM3D、MP3D 和 HSSD 基准测试中均优于现存的零样本主义导航门径。
HM3D:与 InstructNav 比拟,SR 提高了 5.86%,SPL 提高了 46.4%。
MP3D:SR 提高了 0.27%,SPL 提高了 0.57%。
HSSD:SR 提高了 27.8%,SPL 提高了 28.9%。
HM3D:与 InstructNav 比拟,SR 提高了 5.86%,SPL 提高了 46.4%。
MP3D:SR 提高了 0.27%,SPL 提高了 0.57%。
HSSD:SR 提高了 27.8%,SPL 提高了 28.9%。
性能分析:
在 HM3D 数据集上,BeliefMapNav 通过更准确的主义位置推测和优化搜索旅途,显赫提高了搜索后果。
在 HSSD 数据集上,性能显赫普及,因为合成场景幸免了 MP3D 和 HM3D 中存在的问题。
在 HM3D 数据集上,BeliefMapNav 通过更准确的主义位置推测和优化搜索旅途,显赫提高了搜索后果。
在 HSSD 数据集上,性能显赫普及,因为合成场景幸免了 MP3D 和 HM3D 中存在的问题。
可见性图和基于信念的贪图:
莫得可见性图时,SR 下跌了 8.48%,SPL 下跌了 11.4%,因为智能体会从头打听已不雅察过的区域。
莫得贪图模块时,SR 下跌了 10.4%,SPL 下跌了 7.27%,因为智能体通常切换导航主义,导致后果低下。
可见性图和基于信念的贪图:
莫得可见性图时,SR 下跌了 8.48%,SPL 下跌了 11.4%,因为智能体会从头打听已不雅察过的区域。
莫得贪图模块时,SR 下跌了 10.4%,SPL 下跌了 7.27%,因为智能体通常切换导航主义,导致后果低下。
莫得可见性图时,SR 下跌了 8.48%,SPL 下跌了 11.4%,因为智能体会从头打听已不雅察过的区域。
莫得贪图模块时,SR 下跌了 10.4%,SPL 下跌了 7.27%,因为智能体通常切换导航主义,导致后果低下。
不同端倪化 3D 语义:
仅使用场景级别语义时,SR 为 59.0%,SPL 为 30.4%。
使用场景和区域级别语义时,SR 为 61.5%,SPL 为 32.0%。
使用好意思满端倪化语义(包括物体级别)时,SR 为 62.5%,SPL 为 31.6%。
收尾标明,增多更多的语义级别不错提高 SR,但可能会略略缩短 SPL,因为细粒度的搜索会增多旅途长度。
不同端倪化 3D 语义:
仅使用场景级别语义时,SR 为 59.0%,SPL 为 30.4%。
使用场景和区域级别语义时,SR 为 61.5%,SPL 为 32.0%。
使用好意思满端倪化语义(包括物体级别)时,SR 为 62.5%,SPL 为 31.6%。
收尾标明,增多更多的语义级别不错提高 SR,但可能会略略缩短 SPL,因为细粒度的搜索会增多旅途长度。
仅使用场景级别语义时,SR 为 59.0%,SPL 为 30.4%。
使用场景和区域级别语义时,SR 为 61.5%,SPL 为 32.0%。
使用好意思满端倪化语义(包括物体级别)时,SR 为 62.5%,SPL 为 31.6%。
收尾标明,增多更多的语义级别不错提高 SR,但可能会略略缩短 SPL,因为细粒度的搜索会增多旅途长度。
不同视觉话语编码器:
使用 CLIP 时,SR 为 62.5%,SPL 为 31.6%。
使用 BLIP-2 时,SR 为 62.0%,SPL 为 31.1%。
使用 BLIP 时,SR 为 59.3%,SPL 为 31.0%。
收尾标明,CLIP 和 BLIP-2 的性能突出,均优于 BLIP。CLIP 在泛化到溜达外数据方面推崇更好,且复古高效的稳重编码器和展望算特征。
不同视觉话语编码器:
使用 CLIP 时,SR 为 62.5%,SPL 为 31.6%。
使用 BLIP-2 时,SR 为 62.0%,SPL 为 31.1%。
使用 BLIP 时,SR 为 59.3%,SPL 为 31.0%。
收尾标明,CLIP 和 BLIP-2 的性能突出,均优于 BLIP。CLIP 在泛化到溜达外数据方面推崇更好,且复古高效的稳重编码器和展望算特征。
使用 CLIP 时,SR 为 62.5%,SPL 为 31.6%。
使用 BLIP-2 时,SR 为 62.0%,SPL 为 31.1%。
使用 BLIP 时,SR 为 59.3%,SPL 为 31.0%。
收尾标明,CLIP 和 BLIP-2 的性能突出,均优于 BLIP。CLIP 在泛化到溜达外数据方面推崇更好,且复古高效的稳重编码器和展望算特征。
不同端倪化地标:
不使用地标时,SR 为 60.0%,SPL 为 30.9%。
使用房间级别地标时,SR 为 61.0%,SPL 为 31.1%。
使用房间和区域级别地标时,SR 为 61.5%,SPL 为 31.2%。
使用好意思满端倪化地标(包括物体级别)时,SR 为 62.5%,SPL 为 31.6%。
收尾标明,渐渐引入地标不错渐渐提高 SR 和 SPL,但普及幅度小于增多空间语义级别。
不同端倪化地标:
不使用地标时,SR 为 60.0%,SPL 为 30.9%。
使用房间级别地标时,SR 为 61.0%,SPL 为 31.1%。
使用房间和区域级别地标时,SR 为 61.5%,SPL 为 31.2%。
使用好意思满端倪化地标(包括物体级别)时,SR 为 62.5%,SPL 为 31.6%。
收尾标明,渐渐引入地标不错渐渐提高 SR 和 SPL,但普及幅度小于增多空间语义级别。
不使用地标时,SR 为 60.0%,SPL 为 30.9%。
使用房间级别地标时,SR 为 61.0%,SPL 为 31.1%。
使用房间和区域级别地标时,SR 为 61.5%,SPL 为 31.2%。
使用好意思满端倪化地标(包括物体级别)时,SR 为 62.5%,SPL 为 31.6%。
收尾标明,渐渐引入地标不错渐渐提高 SR 和 SPL,但普及幅度小于增多空间语义级别。
3D 体素信念图:展示了主义物体(如沙发)的先验信念溜达,携带智能体进行搜索。
可见性图:披露了智能体在搜索进程中对主义物体的不雅测概率,低概率区域默示主义物体存在可能性低。
后验信念图:聚拢先验信念和及时不雅测响应,动态更新主义物体的存在概率,携带智能体高效探索。
搜索进程:通过一系列要领展示了智能体如何把柄信念图和不雅测信念图渐渐接近主义物体,并最终找到主义。
3D 体素信念图:展示了主义物体(如沙发)的先验信念溜达,携带智能体进行搜索。
可见性图:披露了智能体在搜索进程中对主义物体的不雅测概率,低概率区域默示主义物体存在可能性低。
后验信念图:聚拢先验信念和及时不雅测响应,动态更新主义物体的存在概率,携带智能体高效探索。
搜索进程:通过一系列要领展示了智能体如何把柄信念图和不雅测信念图渐渐接近主义物体,并最终找到主义。
论断:
BeliefMapNav通过聚拢端倪化空间语义、LLM的知识推理以及及时响应,灵验地提高了零样本主义导航的准确性和后果。实验收尾讲明了该门径在多个基准测试中的优厚性能。
改日职责:
当今的3D体素信念图仅在主义导航任务上进行了考证,改日不错将其膨胀到机器东说念主交互和出动操作任务中。
此外,还不错进一步优化局部贪图器的性能,以提高在短促区域的导航技巧,并探索在果然天下环境中的应用和考证。
论断:
BeliefMapNav通过聚拢端倪化空间语义、LLM的知识推理以及及时响应,灵验地提高了零样本主义导航的准确性和后果。实验收尾讲明了该门径在多个基准测试中的优厚性能。
BeliefMapNav通过聚拢端倪化空间语义、LLM的知识推理以及及时响应,灵验地提高了零样本主义导航的准确性和后果。实验收尾讲明了该门径在多个基准测试中的优厚性能。
改日职责:
当今的3D体素信念图仅在主义导航任务上进行了考证,改日不错将其膨胀到机器东说念主交互和出动操作任务中。
此外,还不错进一步优化局部贪图器的性能,以提高在短促区域的导航技巧,并探索在果然天下环境中的应用和考证。
当今的3D体素信念图仅在主义导航任务上进行了考证,改日不错将其膨胀到机器东说念主交互和出动操作任务中。
此外,还不错进一步优化局部贪图器的性能,以提高在短促区域的导航技巧,并探索在果然天下环境中的应用和考证。
发布于:安徽省