NVIDIA、华盛顿大学、斯坦福大学和伊利诺伊大学Urtha ChanaPig的研究人员最近开发了一种用于六维姿态跟踪的RAO BLASWELISED粒子滤波器,称为POSEBPF。该方法可以有效地估计物体的三维平移和在三维旋转中的完全分布。ibing这个过滤器,预先发布在arXiv上,将在即将在德国弗莱堡举行的机器人科学和系统会议上展示。
跟踪视频中物体的6维姿态可以提高机器人在各种任务中的表现,包括操作和导航任务。大多数现有的技术对象姿态估计尝试预测6-D姿势的单一估计(即XYZ翻译和3-D.方向)的一个对象。
这些方法具有许多限制和问题。例如,它们无法讲述部分或完全闭塞对象的姿势。此外,存在的情况包括,由于对称,对象的姿势没有单一正确的答案,其进一步使任务复杂化。
“事实证明,我们日常生活中的许多物体都是对称的,比如餐盘、碗、瓶子或立方体,”开展这项研究的研究人员之一阿尔萨兰·穆萨维安(Arsalan Mousavian)告诉TechXplore。“这些物体没有独特的三维方向,因为它们从许多不同的视角看起来是相同的。为了避免这些问题,我们提出了一种方法来跟踪一个目标(相对于单一姿态估计)在时间上的完整分布。这种分布准确地捕捉了目标姿态的不确定性,随着时间的推移跟踪有助于消除目标姿态的歧义。例如,如果一个物体在某一点是可见的,但被遮挡了,该方法可以通过从之前的帧跟踪它来恢复姿态。”
下面的视频有更多信息。
Mousavian和他的同事开发的PoseRBPF方法可以跟踪6-D姿势的完整分布(即3-D平移、3-D定向)与特定摄像机相关的给定对象的概率分布。6-D空间上的概率分布非常复杂,因此如果没有正确测量,就不可能实时更新。为了确保跟踪分布的准确性,研究人员使用一种叫做Rao Blackwellized粒子滤波的技术。
“在Rao-Blackwellized粒子滤波中,对象平移是由样本或粒子表示的,方向被离散成接近20万个可能方向的小块,”Mousavian解释道。“我们使用深度学习技术来预计算嵌入物,这些嵌入物表示物体在所有这些方向和任意光照条件下的样子。利用高度并行的NVIDIA GPU处理,我们的方法可以将当前的摄像头图像与这些预先计算的嵌入图像进行比较,以获得所有可能的方向,并实时更新分布。”
在每一个时间步,研究人员设计的方法都会根据预测对象和相机如何从一个步骤移动到另一个步骤的模型,通过从先前的粒子集采样来更新粒子集。该过程允许PoseRBPF随时间积累信息,从而导致更稳健和准确的姿势估计。
旋转分布的可视化。线条表示高于阈值的旋转概率。每条线条的长度与该视点的概率成正比。可以看出,PoseRBPF自然表示由于各种对称性而产生的不确定性,包括碗、镜子的旋转对称性泡沫砖的对称性,以及右侧无T对象的离散旋转对称性。
说明了用码本匹配计算条件旋转似然的方法。(左)每个粒子基于其平移假设对图像进行裁剪。对每个粒子的RoI进行调整,并利用编码器计算相应的代码。右)旋转分布P(R|Z, T)是根据每个假设的代码与代码本中的代码之间的距离计算的。
对于每个粒子,以平移估计为条件估计方向分布,以相应的roi估计平移估计。
这些线表示大于阈值的旋转概率。每条线的长度与这个观点出现的概率成正比。可以看出,PoseRBPF自然代表了各种对称的不确定性,包括碗的旋转对称,泡沫砖的镜面对称,以及右边T-LESS物体的离散旋转对称。
通过调节转换的定向估计,Mousavian和他的同事提出的跟踪系统可以有效地代表6-D对象姿势的空间上的复杂不确定性分布。他们的框架还提供有关给定对象姿势的不确定性信息,这可能在机器人操作任务中特别有用。此外,系统使用合成和非注释数据培训,因此它可以保存研究人员在注释数据上花费的时间和资源。
“我们的方法结合了粒子滤波和深度学习的经典贝叶斯估计框架,”Mousavian说。“因此,它将过去几十年发展起来的成熟的评估技术和最近的深度学习方法的力量结合在一起。因此,PoseRBPF可以稳健地估计任意物体的位姿,包括对称物体。
研究人员在两个6维姿态估计数据集上评估了他们的方法:YCB视频数据集和T-LESS数据集。PoseRBPF取得了最先进的结果,优于其他姿态估计技术。在未来,穆萨维安和他的同事开发的粒子过滤器可以提高机器人在各种环境下的性能,例如通过增强它们的物体操作能力。
Mousavian说:“接下来,我们将研究如何在对象操纵的背景下使用PoseRBPF提供的不确定性估计。”。“未来工作的另一个途径是主动移动相机,以减少物体姿势的不确定性,例如从不同的角度看物体以解决歧义。”
根据以下文件提交:产品设计




