英伟达、华盛顿大学、斯坦福大学和伊利诺伊大学厄巴纳-香槟分校的研究人员最近开发了一种用于6维姿态跟踪的Rao-Blackwellized粒子滤波器,称为PoseRBPF。该方法可以有效地估计物体的三维平移量及其在三维旋转中的全部分布。描述这个过滤器的论文预发表在arXiv上,将在即将在德国弗莱堡举行的机器人科学和系统会议上发表。
跟踪视频中物体的6维姿态可以提高机器人在各种任务中的表现,包括操作和导航任务。大多数现有的技术对象姿态估计尝试对6-D姿态(即xyz平移和3-D)进行单个估计取向)在每一帧的一个物体。
这些方法有一些局限性和问题。例如,他们无法分辨部分或完全遮挡物体的姿态。此外,在有些情况下,由于对称性,物体的姿态没有单一的正确答案,这使任务更加复杂。
“事实证明,我们日常环境中的许多物体都是对称的,比如餐盘、碗、瓶子或立方体,”开展这项研究的研究人员之一Arsalan Mousavian告诉TechXplore。“这些物体并没有独特的3d方向,因为从许多不同的视角来看,它们看起来都是一样的。为了避免这些问题,我们提出了一种方法来跟踪一个对象的姿态(而不是单姿态估计)在时间上的完整分布。这种分布准确地捕获了物体姿态的不确定性,随着时间的推移跟踪有助于消除物体姿态的歧义。例如,如果一个物体在某一点是可见的,并变得被遮挡,该方法可以通过跟踪它从以前的帧恢复姿态。”
下面的视频有更多的信息。
Mousavian和他的同事开发的PoseRBPF方法,可以跟踪给定物体相对于特定摄像机的6-D姿态(即3-D平移、3-D方向)的完整分布。6-D空间上的概率分布是非常复杂的,所以如果不能正确地测量它们,就不可能实时更新它们。为了确保跟踪分布的准确性,研究人员使用一种称为Rao-Blackwellized粒子滤波的技术来解耦他们对3-D物体平移和3-D物体方向的估计。
“在rao - blackwelized粒子滤波中,物体的平移由样本或粒子表示,方向被离散成接近200,000个可能方向的小块,”Mousavian解释说。“我们使用了深度学习技术来预计算嵌入,这些嵌入代表了物体在所有这些方向和任意光照条件下的样子。利用高度并行的NVIDIA GPU处理,我们的方法可以比较当前的摄像头图像和这些预先计算的嵌入的所有可能的方向,实时更新分布。”
在每一个时间步骤中,研究人员设计的方法通过从之前的粒子集采样来更新粒子集,遵循一个预测物体和摄像机如何从一个步骤移动到另一个步骤的模型。这个过程允许PoseRBPF随着时间积累信息,从而导致更鲁棒和准确的姿态估计。
旋转分布的可视化。这些线表示旋转高于阈值的概率。每条线的长度与那个视点的概率成正比。可以看出,PoseRBPF自然代表了由于各种对称而产生的不确定性,包括碗的旋转对称,泡沫砖的镜像对称,以及右边T-LESS物体的离散旋转对称。
用码本匹配计算条件旋转似然的例子。左)每个粒子根据其平移假设对图像进行裁剪。每个粒子的RoI被调整大小,并使用编码器计算相应的代码。(右)旋转分布P(R|Z, T)是从每个假设的代码和代码本中的代码之间的距离计算出来的。
对于每个粒子,方向分布是在平移估计的基础上估计的,而平移估计是用相应的roi来估计的。
这些线表示旋转高于阈值的概率。每条线的长度与那个视点的概率成正比。可以看出,PoseRBPF自然代表了由于各种对称而产生的不确定性,包括碗的旋转对称,泡沫砖的镜像对称,以及右边T-LESS物体的离散旋转对称。
Mousavian等人提出的跟踪系统通过对平移条件下的方向估计,可以有效地表征6维目标姿态空间上复杂的不确定性分布。他们的框架还提供了关于给定物体姿态的不确定性信息,这可能在机器人操作任务中特别有用。此外,该系统采用合成数据和非标注数据进行训练,从而节省了研究人员对数据进行标注的时间和资源。
“我们的方法结合了粒子滤波的经典贝叶斯估计框架和深度学习,”Mousavian说。因此,它结合了过去几十年发展起来的成熟的评估技术和最近深度学习方法的力量。结果表明,PoseRBPF可以鲁棒估计任意目标的姿态,包括对称目标的姿态。
研究人员在两个6维姿态估计数据集上评估了他们的方法:YCB视频数据集和T-LESS数据集。PoseRBPF取得了最先进的结果,优于其他姿态估计技术。在未来,由Mousavian和他的同事开发的粒子滤波器可以改善机器人在各种设置下的性能,例如通过增强它们的对象操作能力。
“下一步,我们将研究如何使用PoseRBPF提供的不确定性估计在对象操作的背景下,”Mousavian说。“未来工作的另一个途径是主动移动摄像机,以减少物体姿态的不确定性,比如从不同的角度看一个物体,以消除模糊。”
了下:产品设计




