
伯克利——一张照片胜过千言万语,但如果这幅图像也能代表成千上万的其他图像呢?
加州大学伯克利分校(UC Berkeley)的计算机科学家开发了一种新软件,通过生成一张可以代表大量图像簇的照片,试图控制世界上大量的视觉数据。这个工具可以为用户提供圣诞老人膝上的孩子、家猫或婚礼上的新娘和新郎的照片要点。它的工作原理是生成一幅图像,将其他照片的关键特征平均出来。
用户还可以为特定功能提供额外的权重,以创建子类别并快速对图像结果进行排序。通过这种方式,蓝翅蝴蝶或橙色虎斑猫可能会升到照片集的顶部。
这项研究由电子工程和计算机科学副教授Alexei Efros领导,将于今天(8月14日星期四)在加拿大温哥华举行的计算机图形和交互技术国际会议和展览(SIGGRAPH)上展示。
作者指出,自摄影发明以来,据估计已拍摄了3.5万亿张照片,其中10%是在过去一年中拍摄的。据Facebook报道,其网站上每月有60亿张照片上传,YouTube每分钟有72小时的视频上传。
“视觉数据是大数据中最大的数据之一,”Efros说,他也是加州大学伯克利分校视觉计算实验室的成员。“我们在网络上收集了大量的图片,但其中很多是人类看不到的,因为它太庞大了。人们称之为互联网的暗物质。我们想找到一种方法,通过系统地‘平均’图像,快速可视化这些数据。”
Efros与加州大学伯克利分校计算机科学研究生、论文的第一作者朱俊燕(Jun-Yan Zhu)以及前加州大学伯克利分校博士后研究员李勇(Yong Jae Lee)合作开发了这个系统,他们将其命名为AverageExplorer。
研究人员提供了该系统的潜在应用的例子,例如在线购物中,消费者可能希望在完美的红色阴影中快速地欣赏两英寸楔形脚跟。或者也许媒体分析师希望看到斯蒂芬Colbert的典型身体姿势,当时巴拉克奥巴马总统出现在他的肩膀上的图形中。
现在,李现在,UC戴维斯的计算机科学助理教授表示,该系统也可用于帮助改善计算机视觉系统在图像中区分关键特征的能力,例如汽车上的轮胎或脸上的眼睛.当用户在平均图像上标记这些功能时,整个图像集合也会自动注释。
“在计算机视觉中,注释用于训练系统来检测对象,所以你可能会标志着眼睛,鼻子和嘴巴教导计算机的人脸的样子,”李说。“需要大量数据来准确培训系统,因此减少努力和时间的时间至关重要。不是单独注释每个图像,使用ImperalExplorer,我们只需要注释平均图像,并且系统将自动将注释传播到图像集合。“
研究人员受到了詹姆斯·萨拉文(James Salavon)等艺术家的启发,他从数百张孩子和圣诞老人、新婚夫妇或棒球运动员的照片中创造了普通的图像,以说明一个概念。普通的照片可以提供有趣的见解,比如在西方文化中,新娘在正式的肖像照中穿白色衣服站在新郎的右边,或者年轻的棒球运动员在他们的官方照片中单膝下跪。
Salavon用来分类和对齐图像的许多手动步骤现在通过加州大学伯克利分校的工具实现了自动化。
有关更多信息,请访问www.newscenter.berkeley.edu..
了下:M2M(机器对机器)




