如果一个名字是暧昧的并且没有上下文给出,甚至人类都在奋斗。在阅读姓氏“Merkel”时,人们不知道它是否指的是德国Angela Merkel的总理或着名的足球教练Max Merkel。这也是Web搜索的缺点。到目前为止,程序可以捕获像“Angela Merkel”这样的角色字符串,但他们根本不关注“德国总理”或“德国的第一夫人”等属性。更糟糕的是,在输入“默克尔”这个词之后,搜索引擎提供有关很多姓氏的人的信息。Max Planck信息学研究所的研究人员现在制定了一个程序,通过在免费的互联网百科全书维基百科的帮助下,通过分析它们,可以准确地歧义命名实体。他们的软件名为AIDA在文本和潜在人或地方的提到之间建立了联系。“在Wikipedia的提及和特定人员之间存在更多的参考文章,也可以在输入文本中找到越多的人的维基百科文章,并且提到实体边缘接收的分数越高。AIDA检查此评分并选择最高分数的提及实体边缘作为准确的映射,“Johannes Hoftar(Johannes Hoffart)解释说,在Max Planck信息学研究所联合AIDA。
为了证明他们的新技术,研究人员基于他们的方法实现了一个搜索引擎。该搜索引擎不仅可以将字符串搜索与特定对象(如人员和地点)的搜索结合起来,还可以根据类别进行搜索。这样,搜索“安格拉·默克尔+电话+乌克兰政治家”,就会得到与德国总理有关的文本,而文本背景是乌克兰政治家,如“尤利娅·季莫申科”和字符串“电话”。目前研究者使用AIDA对德国国家图书馆的文本语料库进行分析,将关键词搜索与特定对象搜索相结合。霍法特指出:“这样搜索结果更精确。”
马克斯·普朗克信息学研究所科学主任格哈德·韦库姆在Saarbrücken上解释说:“通过我们的新技术,我们不仅可以构建更好的搜索引擎,还可以让计算机像人类一样高效地理解文本。”Weikum表示,这种方法还为自动生成推荐和数据集分析开辟了新的可能性。Weikum还在Saarbrücken网站的“多模式计算和交互”卓越集群进行研究。“无论谁是默克尔足球教练的粉丝,他的书都会得到推荐。那些对默克尔总理更感兴趣的人可以参考有关她和她治理德国方式的书籍,”韦库姆解释道。
有关更多信息,请访问http://www.uni-saarland.de/
了下:M2M(机器对机器)




