“直到现在,如果你要在步行区挂一张广告海报,并想知道有多少人真正看过它,你根本没有机会,”Andreas Bulling解释道,他领导着萨尔大学卓越集群和马克斯·普朗克信息学研究所的独立研究小组“感知用户界面”。在此之前,人们会试图通过测量注视方向来捕捉这一重要信息。这需要特殊的眼球追踪设备,需要几分钟的校准时间;更重要的是,每个人都必须佩戴这样的追踪器。现实世界的研究,比如在一个步行区,甚至是在多人的情况下,在最好的情况下非常复杂,在最坏的情况下,是不可能的。
即使将摄像机放置在目标对象时,例如使用海报和机器学习即使也是使用的,即使用足够量的样品数据训练,只能识别在相机本身上的瞥一度。通常,训练数据和目标环境中的数据之间的区别太大。迄今为止几乎不可能,通用眼睛接触检测器可用于静止和大型目标物体,用于静止和移动情况,用于一个用户或整个组,或者在更换的照明条件下。
与他的博士生张旭聪和他的前博士后菅野佑介(现在是大阪大学的教授)一起,Bulling开发了一种基于新一代算法来估计凝视方向的[1]方法。它们使用一种特殊类型的神经网络,被称为“深度学习”,目前在工业和商业的许多领域都引起了轰动。bullling和他的同事已经在这个方法上工作了两年,并且已经一步一步地推进了这个方法。在他们提出的方法中,首先对估计的注视方向进行所谓的聚类。例如,使用同样的策略,人们也可以根据不同的特征区分苹果和梨,而无需明确说明两者的区别。在第二步中,最可能的集群被识别出来,它们包含的凝视方向估计被用来训练目标-目标特定的眼神接触检测器。这个程序的一个决定性的优点是它可以在没有用户参与的情况下进行,而且该方法还可以进一步改进,相机停留在目标物体旁边并记录数据的时间越长。Bulling解释说:“通过这种方式,我们的方法将普通摄像机变成了眼睛接触探测器,而无需事先知道或指定目标物体的大小或位置。”
研究人员在两种情况下测试了它们的方法:在工作区中,相机安装在目标对象上,并在日常情况下,用户穿着一个身体相机,使其采用第一人称的视角。结果:由于该方法为自己设计了必要的知识,因此它是强大的,即使当涉及的人数,照明条件,摄像机位置以及目标对象的类型和大小而变化。
然而,Bulling指出,“原则上,我们可以只用一台相机识别多个目标物体上的眼神接触簇,但将这些簇分配给不同的对象还不可能。”我们的方法目前假设最近的集群属于目标对象,而忽略其他集群。这是我们接下来要解决的问题。”尽管如此,他仍然相信“我们提出的方法是一个巨大的进步。它不仅为新的用户界面自动识别眼神交流并对此做出反应铺平了道路,还为日常情况下的眼神交流测量铺平了道路,比如户外广告,这在以前是不可能的。”
提交:M2M(机器到机器)




