发现合作管道：面向序列社会困境的自动研究

Hugging Face Daily Papers 2026/05/28 00:00 论文

autoresearch cooperation multi-agent social-dilemmas llm-policy fairness welfare-objectives

摘要

本文提出了一种双层自动研究框架，其中外环AI代理自主优化内环LLM策略合成管道，用于多智能体序列社会困境，实现了优越的性能，并发现了在最大最小福利目标下的公平等具体目标机制。

我们研究用于合作的双层自动研究：外环AI代理自主重新设计面向多智能体序列社会困境（SSDs）的LLM策略合成系统的内环管道。研究代理R（作为编码代理运行）读取内环源代码，编辑系统提示、反馈函数、辅助库和迭代逻辑，运行评估，并决定保留什么，遵循自动研究范式。在两个游戏（Cleanup和Gathering）、两个策略合成器LLM以及两个福利目标（效用主义效率和罗尔斯最大最小）上，研究代理可靠地超越了手工设计的基线，显著缩小了运行间的方差，并优于仅提示优化。发现的管道依赖于目标：仅在最大最小下，研究代理才会向合成器管道注入显式的公平机制，这类机制在其自身的与目标无关的系统提示以及每个效率优化的管道中都不存在。这支持了一种信息设计的解读，即研究代理根据福利目标选择向有限理性的合成器揭示什么。代码见 https://github.com/vicgalle/autoresearch-social-dilemmas。

查看原文

查看缓存全文

缓存时间: 2026/05/29 07:00

论文页面 - 发现合作流水线：面向序贯社会困境的自动研究

来源：https://huggingface.co/papers/2605.30003

摘要

两级自动研究框架使AI智能体能够自主优化面向多智能体社会困境的LLM策略合成流水线，展现出优越的性能和特定目标的机制发现。

我们研究用于合作的 两级自动研究（https://huggingface.co/papers?q=autoresearch）：一个 外层AI智能体（https://huggingface.co/papers?q=outer-loop%20AI%20agent）自主重新设计 内层流水线（https://huggingface.co/papers?q=inner-loop%20pipeline），该流水线属于一个面向 多智能体序贯社会困境（https://huggingface.co/papers?q=multi-agent%20Sequential%20Social%20Dilemmas）（SSDs）的 LLM策略合成（https://huggingface.co/papers?q=LLM%20policy-synthesis）系统。研究员智能体（https://huggingface.co/papers?q=researcher%20agent）R（以编码智能体的方式运行）读取内层源代码，编辑系统提示、反馈函数、辅助库和迭代逻辑，运行评估并决定保留哪些内容，遵循 自动研究（https://huggingface.co/papers?q=autoresearch）范式。在两种游戏（Cleanup 和 Gathering）、两种 策略合成器（https://huggingface.co/papers?q=policy-synthesizer）LLM 以及两种 福利目标（https://huggingface.co/papers?q=welfare%20objectives）（功利效率（https://huggingface.co/papers?q=utilitarian%20efficiency）和 罗尔斯最大化最小（https://huggingface.co/papers?q=Rawlsian%20maximin））下，研究员可靠地超越了手工设计的基线，显著缩小了运行间方差，并且优于仅提示优化。发现的水线依赖于目标：仅在最大化最小目标下，研究员才会向合成器流水线注入显式的公平机制，而这类机制在其自身目标无关的系统提示以及所有效率优化的流水线中均不存在。这支持了一种 信息设计（https://huggingface.co/papers?q=information-design）解读：研究员根据福利目标选择向 有限理性合成器（https://huggingface.co/papers?q=boundedly%20rational%20synthesizer）揭示什么。代码见 https://github.com/vicgalle/autoresearch（https://huggingface.co/papers?q=autoresearch）-social-dilemmas。

查看 arXiv 页面（https://arxiv.org/abs/2605.30003）查看 PDF（https://arxiv.org/pdf/2605.30003）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.30003）

在你的智能体中获取这篇论文：

hf papers read 2605.30003

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.30003 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.30003 以从此页面链接。

引用此论文的 Spaces0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.30003 以从此页面链接。

包含此论文的集合0

没有集合包含此论文

将此论文添加到集合（https://huggingface.co/new-collection）以从此页面链接。

发现合作管道：面向序列社会困境的自动研究

论文页面 - 发现合作流水线：面向序贯社会困境的自动研究

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的集合0

相似文章

基于对偶智能体的凸松弛的AI辅助发现

ALSO：面向社交智能体的对抗性在线策略优化

面向代理基础设施的代理分析：基于LLM的DAO与企业AI协议比较治理流水线

奖励驱动的大语言模型代理工作流：融合POMDP路由与自我修正的自主决策

两个精灵游戏：审计驱动的AI治理中的采纳与福利

提交意见反馈