self-play

#self-play

SPARK：基于知识图谱的不对称奖励自博弈

arXiv cs.AI ↗ · 2天前缓存

本文介绍了 SPARK，这是一种自博弈强化学习框架，利用从科学文献中衍生出的知识图谱来提升视觉-语言模型的关系推理能力。

0 人收藏 0 人点赞

#self-play

基于预训练文本的自评规则自博弈，为开放式任务自举后训练信号

arXiv cs.CL ↗ · 2026-04-23 缓存

康奈尔研究者提出 POP 自博弈框架，让大模型自行生成评分规则与训练样本，在医疗问答、创意写作、指令遵循等开放式任务上提升 Qwen-2.5-7B，无需人工标注。

0 人收藏 0 人点赞

#self-play

# 结合语义等价自博弈与形式化验证提升 LLM 代码推理能力

arXiv cs.CL ↗ · 2026-04-21 缓存

爱丁堡大学研究人员提出了一种利用 Liquid Haskell 进行形式化验证的自博弈框架，用于训练 LLMs 的语义等价推理能力，同步发布了 OpInstruct-HSx 数据集（28k 个程序），并在 EquiBench 上实现了 13.3 个百分点的准确率提升。

0 人收藏 0 人点赞

#self-play

Stratagem：通过轨迹调制博弈自博弈学习可迁移推理

Hugging Face Daily Papers ↗ · 2026-04-20 缓存

# 论文页面 - Stratagem：通过轨迹调制博弈自博弈学习可迁移推理来源：[https://huggingface.co/papers/2604.17696](https://huggingface.co/papers/2604.17696) 作者：,,,,,,,,,, ## 摘要 STRATAGEM 通过引入推理可迁移性系数与演化奖励，鼓励抽象、跨领域模式而非博弈专用启发式，从而解决语言模型推理迁移受限的问题。博弈为开发通用推理能力提供了极具吸引力的范式。

0 人收藏 0 人点赞

#self-play

Dota 2 与大规模深度强化学习

OpenAI Blog ↗ · 2019-12-13 缓存

OpenAI Five 成为首个利用大规模深度强化学习和自我对弈击败 Dota 2 世界冠军的 AI 系统，在这款具有长期时间跨度和不完全信息的复杂游戏中展现了超人类的表现。

0 人收藏 0 人点赞

#self-play

多智能体交互中出现的工具使用

OpenAI Blog ↗ · 2019-09-17 缓存

OpenAI 展示了在躲猫猫环境中训练的智能体能够通过多智能体竞争发现六种不同的突现策略和工具使用行为，而无需明确的对象交互激励。这项工作表明多智能体协同适应可以通过自监督学习产生复杂的智能行为。

0 人收藏 0 人点赞

#self-play

OpenAI Five

OpenAI Blog ↗ · 2018-06-25 缓存

OpenAI Five 是一个强化学习智能体，通过自我对抗训练、课程学习和策略随机化来掌握 Dota 2，从随机行为逐步演进到执行复杂的人类级策略。

0 人收藏 0 人点赞

#self-play

竞争性自我对弈

OpenAI Blog ↗ · 2017-10-11 缓存

OpenAI 证明在模拟 3D 机器人环境中进行竞争性自我对弈，能够使 AI 智能体在没有明确指导的情况下发现复杂的物理行为，如铲球、躲闪和虚晃等，表明自我对弈将成为未来强大 AI 系统的基础。

0 人收藏 0 人点赞

#self-play

Dota 2

OpenAI Blog ↗ · 2017-08-11 缓存

OpenAI 创建了一个机器人，仅通过自我对弈学习就能在1v1匹配中击败世界顶级Dota 2职业选手，无需使用模仿学习或树搜索。这一成就展示了人工智能系统在动态、多智能体环境中实现复杂目标的进步。

0 人收藏 0 人点赞

self-play

SPARK：基于知识图谱的不对称奖励自博弈

基于预训练文本的自评规则自博弈，为开放式任务自举后训练信号

# 结合语义等价自博弈与形式化验证提升 LLM 代码推理能力

Stratagem：通过轨迹调制博弈自博弈学习可迁移推理

Dota 2 与大规模深度强化学习

多智能体交互中出现的工具使用

OpenAI Five

竞争性自我对弈

更多关于 Dota 2 的内容

Dota 2

提交意见反馈