标签
本文介绍了 SPARK,这是一种自博弈强化学习框架,利用从科学文献中衍生出的知识图谱来提升视觉-语言模型的关系推理能力。
康奈尔研究者提出 POP 自博弈框架,让大模型自行生成评分规则与训练样本,在医疗问答、创意写作、指令遵循等开放式任务上提升 Qwen-2.5-7B,无需人工标注。
爱丁堡大学研究人员提出了一种利用 Liquid Haskell 进行形式化验证的自博弈框架,用于训练 LLMs 的语义等价推理能力,同步发布了 OpInstruct-HSx 数据集(28k 个程序),并在 EquiBench 上实现了 13.3 个百分点的准确率提升。
# 论文页面 - Stratagem:通过轨迹调制博弈自博弈学习可迁移推理 来源:[https://huggingface.co/papers/2604.17696](https://huggingface.co/papers/2604.17696) 作者:,,,,,,,,,, ## 摘要 STRATAGEM 通过引入推理可迁移性系数与演化奖励,鼓励抽象、跨领域模式而非博弈专用启发式,从而解决语言模型推理迁移受限的问题。博弈为开发通用推理能力提供了极具吸引力的范式。
OpenAI Five 成为首个利用大规模深度强化学习和自我对弈击败 Dota 2 世界冠军的 AI 系统,在这款具有长期时间跨度和不完全信息的复杂游戏中展现了超人类的表现。
OpenAI 展示了在躲猫猫环境中训练的智能体能够通过多智能体竞争发现六种不同的突现策略和工具使用行为,而无需明确的对象交互激励。这项工作表明多智能体协同适应可以通过自监督学习产生复杂的智能行为。
OpenAI Five 是一个强化学习智能体,通过自我对抗训练、课程学习和策略随机化来掌握 Dota 2,从随机行为逐步演进到执行复杂的人类级策略。
OpenAI 证明在模拟 3D 机器人环境中进行竞争性自我对弈,能够使 AI 智能体在没有明确指导的情况下发现复杂的物理行为,如铲球、躲闪和虚晃等,表明自我对弈将成为未来强大 AI 系统的基础。
OpenAI 描述了他们在国际邀请赛期间对 Dota 2 机器人所做的迭代改进,将教练指导与自我对弈相结合,通过快速训练周期和在职业比赛中发现的战略优化来增强智能体性能。
OpenAI 创建了一个机器人,仅通过自我对弈学习就能在1v1匹配中击败世界顶级Dota 2职业选手,无需使用模仿学习或树搜索。这一成就展示了人工智能系统在动态、多智能体环境中实现复杂目标的进步。