人工智能技术不断进步,使得多智能体系统在处理复杂任务时的能力日益增强。这些系统由众多专业智能体构成,它们通过协同合作,各自发挥优势,共同实现目标。在复杂推理、编程、药物发现和安全保障等领域,这种协作模式展现出卓越表现。智能体间的结构化互动不仅提升了问题解决的效率,还能相互校正,优化各自输出。研究指出,在需要严格推理或实验验证的任务中,多智能体协作往往优于单一智能体的表现。

QQ_1739439911579.png

尽管如此,优化多智能体系统仍面临诸多挑战。其中一大难题是为每个智能体获取恰当的训练信号。尽管可以获得任务级别的奖励反馈,但如何在不同智能体间进行信用分配却变得不明确。由于语言模型的推理过程复杂且无结构,将成功或失败归因于每个智能体的具体决策和推理步骤变得更加困难,这与强化学习中的多智能体信用分配问题类似。

为解决这一难题,斯坦福大学的研究团队推出了SIRIUS框架,这是一种基于推理驱动的自我改进多智能体优化框架。SIRIUS通过保留成功的推理轨迹构建经验库,提供高质量的训练集。同时,对不成功的尝试进行增强,丰富数据集。研究结果显示,SIRIUS在推理和生物医学问答方面的表现提升了2.86%至21.88%,并增强了智能体在竞争环境中的谈判能力。智能体通过学习成功的互动,迭代改进合作策略,实现了无需直接监督的自我优化。

SIRIUS框架还包含一个迭代微调过程,智能体在一个自然语言环境中互动,生成响应、评估响应、改进低质量输出,并通过监督学习更新策略。通过持续的响应优化,SIRIUS提升了语言基础多智能体系统中的推理和决策能力,随着时间的推移,实现了更加有效和连贯的互动。

在实验中,SIRIUS与多种基线模型进行了比较,包括单智能体、STaR、CoMM和TextGrad。结果显示,SIRIUS在问题解决、任务分解和智能体协作方面均表现出色。通过消融研究发现,专门的智能体角色、多智能体优化以及经验增强是提升性能的关键因素。SIRIUS在演员-评论家和竞争环境中也表现出色,在PubMedQA和资源交换游戏等任务中均优于其他方法。

综上所述,SIRIUS是一个旨在通过学习成功互动和改进失败案例来优化多智能体系统的框架。它构建了一个包含高质量推理步骤的经验库,作为系统优化的训练集,同时通过增强不成功的轨迹来丰富库的内容。这一框架显著提高了推理、生物医学问答和智能体谈判能力,推动了多智能体协作的持续自我改进。

论文:https://arxiv.org/pdf/2502.04780

划重点:

🌟 SIRIUS框架通过自我改进和学习成功经验,优化多智能体系统的性能。

📈 研究表明,SIRIUS在推理和生物医学问答等任务中,性能提升达2.86%至21.88%。

🤝 多智能体之间的互动和经验库的构建是SIRIUS优化过程的核心,助力智能体在复杂任务中更有效合作。