KAUST和法国Nortonlifelock研究小组合作开发了一种关系数据分类算法,这种算法比以前的方案更精确,效率也提高了几个数量级。
新算法使用了一种称为强化学习的方法,它演示了加工学习技术的强大功能,甚至在对关系数据进行分类等经过验证的任务中也是如此。
最常见的数据类型之一是关系数据,其中离散数据点或节点以某种方式连接到其他数据点或节点。社交网络就是一个很好的例子,每个用户都通过朋友关系联系到其他人,也通过共同的兴趣、地理位置、或其他特征或标签联系在一起。
对关系数据进行分类涉及到搜索代理对节点之间的连接进行探索性的“行走”。一个简单的代理随机地做这件事,但是这样的方法是非常低效和计算密集型的;如果代理发现自己在一个相关的死胡同中,它还会导致次优分类精度。
Uchenna Akujuobi与KAUST的同事以及来自Nortonlifelock的Han Yufei合作,通过引入机器学习技术,成功地开发了一种更健壮的方法。
Akujuobi解释说:“大多数现实世界中的关系数据都可以用图形结构的格式表示,其中包含用表示关系的边连接起来的数据节点。”“为了获得更好的分类结果,我们开始建立一个基于图表的分类模型,该模型使用一种强化方法来训练agent。”
“我们的方法背后的直觉是,我们不是随机选择探索路径,而是看我们是否能让代理更聪明,”Yufei说。“为了做到这一点,我们在数据集中标记了一些节点,这样我们就可以训练图形探索策略。”
在强化学习中,agent从一个节点走到另一个节点,当遇到带标记的数据时得到奖励或惩罚,从而逐步改进决策策略。这种训练有效地减少了行走的“随机性”,使分类更有效,也更不容易出错。
Akujuobi说:“经过训练的代理本质上是根据邻近节点与当前节点的相关性来决定每一步移动到哪个节点。”
Yufei说:“我们的方法将图形搜索的计算复杂性降低了几个数量级,同时比最先进的图形结构编码算法提供了更好的节点分类精度。”“它也普遍适用于任何类型的图形结构数据,如社交网络推荐系统和生物分子分类,以及网络安全。”