借助大语言模型发现强化学习接口

Hugging Face Daily Papers 2026/05/05 00:00 论文

摘要

本文介绍了 LIMEN，这是一个由大语言模型引导的演化框架，能够通过联合优化原始模拟器状态的观测映射与奖励函数，自动发现强化学习接口。该方法有效降低了人工设计成本，并证明了观测与奖励的协同设计优于单独优化其中任意单一组件。

强化学习系统依赖于指定观测与奖励函数的环境接口，然而为新任务构建此类接口往往需要耗费大量人工精力。尽管近期研究已利用大语言模型（LLM）实现了奖励设计的自动化，但这些方法通常假设观测是固定的，未能解决构建完整任务接口这一更广泛的挑战。本文研究如何从原始模拟器状态中发现强化学习任务接口，在此过程中需要同时生成观测映射与奖励函数。为此，我们提出了 LIMEN（代码见 https://github.com/Lossfunk/LIMEN），这是一个由大语言模型引导的演化框架。该框架将候选接口生成为可执行程序，并利用策略训练反馈对其进行迭代优化。在涵盖运动与操作的新型离散网格世界任务及连续控制领域中，仅凭轨迹级别的成功指标，观测与奖励的联合演化即可发现有效的接口；而单独优化其中任一组件，则会在至少一个领域中失效。结果表明，从原始状态自动构建强化学习接口可大幅降低人工设计成本；同时，观测与奖励组件往往能从协同设计中获益，因为在本评估套件的至少一个领域中，单一组件的优化会出现灾难性失败。

查看原文

查看缓存全文

缓存时间: 2026/05/11 14:52

论文页面 - 利用大型语言模型发现强化学习接口

来源: https://huggingface.co/papers/2605.03408

摘要

利用大型语言模型引导的进化算法，从原始模拟器状态中自动发现强化学习接口，联合优化观测映射和奖励函数。

强化学习 (https://huggingface.co/papers?q=Reinforcement%20learning) 系统依赖环境接口 (https://huggingface.co/papers?q=environment%20interfaces) 来指定观测和奖励函数 (https://huggingface.co/papers?q=reward%20functions)，然而为新任务构建这些接口往往需要大量手动工作。虽然近期工作利用大型语言模型 (https://huggingface.co/papers?q=large%20language%20models)（LLMs）实现了奖励设计的自动化，但这些方法假设观测是固定的，并未解决合成完整任务接口这一更广泛的挑战。我们研究从原始模拟器状态中发现强化学习任务接口，其中必须生成观测映射 (https://huggingface.co/papers?q=observation%20mappings) 和奖励函数 (https://huggingface.co/papers?q=reward%20functions)。我们提出了 LIMEN（代码可在 https://github.com/Lossfunk/LIMEN 获取），一个由大型语言模型引导的进化框架 (https://huggingface.co/papers?q=evolutionary%20framework)，它生成可执行程序形式的候选接口，并利用策略训练 (https://huggingface.co/papers?q=policy%20training) 反馈迭代优化这些接口。在涵盖运动和操作的离散网格世界新任务及连续控制域中，仅凭一个轨迹级成功指标 (https://huggingface.co/papers?q=trajectory-level%20success%20metric)，联合进化 (https://huggingface.co/papers?q=joint%20evolution) 观测和奖励即可发现有效的接口，而单独优化任一组成部分都至少在某个域上失败。这些结果表明，从原始状态自动构建强化学习接口可以大幅减少手动工程，且观测和奖励组件通常受益于协同设计 (https://huggingface.co/papers?q=co-design)，因为在我们的评估套件中，单组件优化至少在某个域上灾难性失败。

查看 arXiv 页面 (https://arxiv.org/abs/2605.03408) 查看 PDF (https://arxiv.org/pdf/2605.03408) 项目页面 (https://akshat-sj.github.io/limen/) GitHub3 (https://github.com/Lossfunk/LIMEN) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.03408)

在您的代理中获取此论文：

hf papers read 2605.03408

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接到该论文

请在模型的 README.md 中引用 arxiv.org/abs/2605.03408，以便从本页面链接。

引用此论文的数据集 0

没有数据集链接到该论文

请在数据集的 README.md 中引用 arxiv.org/abs/2605.03408，以便从本页面链接。

引用此论文的 Spaces 0

没有 Space 链接到该论文

请在 Space 的 README.md 中引用 arxiv.org/abs/2605.03408，以便从本页面链接。

包含此论文的合集 0

没有合集包含该论文

将此论文添加到一个合集 (https://huggingface.co/new-collection) 中，以便从本页面链接。

借助大语言模型发现强化学习接口

论文页面 - 利用大型语言模型发现强化学习接口

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的合集 0

相似文章

LEEPS：基于潜在引导的探索-利用提示采样，用于大型语言模型的高效RLVR

从受训者到训练者：LLM为多智能体推理强化学习设计的训练环境

从受训者到训练者：面向多智能体推理的强化学习的LLM设计训练环境

基于LLM的多目标贝叶斯优化算法演化生成

使用LLM进行特征生成：一种进化算法方法

提交意见反馈