在网络系统中寻找重复出现的模式,已经成为生物学和社交媒体等各种领域研究和发现的基本部分。KAUST的研究人员开发了一种模式或图挖掘框架,有望显著提高对大规模网络数据集的搜索速度。
KAUST极端计算研究中心的研究小组负责人Panagiotis Kalnis解释说:“图表是一种数据结构,可以模拟对象之间的复杂关系。”“图表被广泛应用于许多现代应用,包括社交网络、蛋白质相互作用等生物网络,以及互联网等通信网络。”
在这些应用程序中,最重要的操作之一是寻找重复出现的图,这些图揭示了对象如何相互连接。该过程被称为频繁子图挖掘(FSM),是社会研究、生物信息学、图像处理以及安全和欺诈检测中许多知识提取技术的重要组成部分。然而,图可能包含数亿个对象和数十亿个关系,这意味着提取重复出现的模式需要大量的时间和计算资源。
“本质上,如果我们能提供更好的算法,所有依赖FSM的应用程序将能够在更短的时间内对更大的数据进行更深入的分析,”Kalnis指出。
Kalnis和他的同事开发了一个名为ScaleMine的系统,与现有的方法相比,该系统可以提供10倍的加速度。
他说:“FSM涉及大量的图形操作,每一次操作的计算成本都很高,所以在大型图形中支持FSM的唯一可行方法是通过大规模并行计算。”
在并行计算中,图搜索被划分为多个任务,每个任务在自己的处理器上同时运行。如果任务太大,整个搜索就会等待最慢的任务完成;如果任务太小,协调并行化所需的额外通信将成为一个显著的额外计算负载。
Kalnis的团队通过两步搜索克服了这一限制:第一步是确定搜索空间和任务最优划分的近似步骤,第二步是将大型任务动态分割为最优子任务数量的计算步骤。这使得搜索速度比以前快了十倍。
Kalnis说:“希望这种性能的改进将有助于对大型图表数据进行更深入、更准确的分析,并提取新的知识。”
了下:快速原型



