在科学与技术的交叉领域,图(Graphs)作为展现复杂关系的关键工具,正逐渐成为研究者们关注的焦点。从化学分子设计到社交网络分析,图在众多领域中发挥着不可替代的作用。然而,如何高效、灵活地构建图形,长期以来都是一个极具挑战性的问题。近期,塔夫茨大学、东北大学和康奈尔大学的研究团队联合开发了一项名为Graph Generative Pre-trained Transformer(G2PT)的自回归模型,旨在重新定义图生成与表示方法。
如图所示:
图源说明:此图片由AI生成,授权由Midjourney提供。
与传统图生成模型依赖邻接矩阵(adjacency matrix)不同,G2PT引入了一种基于序列的tokenization方法。这种方法通过将图分解为节点集和边集,充分利用了图的稀疏性,显著提升了计算效率。G2PT的创新之处在于能够像处理自然语言一样,逐步构建图,并通过预测下一个token来完成整个图的构建。研究显示,这种序列化的表示方式不仅减少了token的数量,还提高了生成质量。
G2PT的适应性和扩展性引人注目。通过Fine-tuning技术,它在目标导向图生成和图属性预测等任务中表现出卓越的性能。例如,在药物设计中,G2PT能生成具有特定理化性质的分子图。此外,通过提取预训练模型的图嵌入,G2PT在多个分子属性预测数据集上也表现出了优越性。
在对比实验中,G2PT在多个基准数据集上的表现均显著优于现有最先进模型。在生成有效性、唯一性和分子属性分布匹配等方面,其表现得到了高度认可。研究人员还分析了模型和数据规模对生成性能的影响,结果显示,随着模型规模的增加,生成性能显著提升,且在一定规模后趋于饱和。
尽管G2PT在多个任务中表现出卓越的能力,但研究者们也指出,生成顺序的敏感性可能意味着不同图域需要不同的顺序优化策略。未来的研究有望进一步探索更通用且表达力更强的序列设计。
G2PT的出现,不仅为图生成领域带来了创新的方法,也为相关领域的研究与应用奠定了坚实的基础。
暂无评论