分治模式搜索

在网络系统中寻找重复出现的模式，已经成为生物学和社交媒体等各种领域研究和发现的基本部分。KAUST的研究人员开发了一种模式或图挖掘框架，有望显著提高对大规模网络数据集的搜索速度。

KAUST极端计算研究中心的研究小组负责人Panagiotis Kalnis解释说:“图表是一种数据结构，可以模拟对象之间的复杂关系。”“图表被广泛应用于许多现代应用，包括社交网络、蛋白质相互作用等生物网络，以及互联网等通信网络。”

在这些应用程序中，最重要的操作之一是寻找重复出现的图，这些图揭示了对象如何相互连接。该过程被称为频繁子图挖掘(FSM)，是社会研究、生物信息学、图像处理以及安全和欺诈检测中许多知识提取技术的重要组成部分。然而，图可能包含数亿个对象和数十亿个关系，这意味着提取重复出现的模式需要大量的时间和计算资源。

“本质上，如果我们能提供更好的算法，所有依赖FSM的应用程序将能够在更短的时间内对更大的数据进行更深入的分析，”Kalnis指出。

Kalnis和他的同事开发了一个名为ScaleMine的系统，与现有的方法相比，该系统可以提供10倍的加速度。

他说:“FSM涉及大量的图形操作，每一次操作的计算成本都很高，所以在大型图形中支持FSM的唯一可行方法是通过大规模并行计算。”

在并行计算中，图搜索被划分为多个任务，每个任务在自己的处理器上同时运行。如果任务太大，整个搜索就会等待最慢的任务完成;如果任务太小，协调并行化所需的额外通信将成为一个显著的额外计算负载。

Kalnis的团队通过两步搜索克服了这一限制:第一步是确定搜索空间和任务最优划分的近似步骤，第二步是将大型任务动态分割为最优子任务数量的计算步骤。这使得搜索速度比以前快了十倍。

Kalnis说:“希望这种性能的改进将有助于对大型图表数据进行更深入、更准确的分析，并提取新的知识。”

了下:快速原型

搜索设计世界