语言游戏:与非人类系统对话

arXiv cs.LG 论文

摘要

本文介绍了一种名为“语言游戏”的框架,通过将通信视为一场游戏,其中系统的内部动态被冻结作为强化学习策略,仅训练线性输入输出接口,从而实现与非神经生物系统(例如基因调控网络)的对话。该方法允许不同系统在不改变其参数的情况下流畅地进行通信。

arXiv:2605.16321v1 公告类型:新 摘要:语言承载着人类的思想与协调,但很少触及多样智能谱系中的更远之处。然而,从基因调控网络、微生物群落到真菌等非神经系统的计算、决策和记忆基底越来越受到认可,使得与非人类智能的对话成为新的可能。目前,这种对话仅通过代理进行:大型语言模型代表系统发言,因此展示的任何智能都源自模型,而系统本身保持沉默。在此,我们探究系统能否用自己的声音说话。遵循维特根斯坦将意义置于使用中的观点,我们视通信为与系统进行的一场游戏。其内部动态被冻结为强化学习策略的非线性核心,仅训练线性输入输出接口。通过使用和奖励,系统的状态和响应在游戏内获得意义,从而游戏即说话。由于不同架构玩同一场游戏时优化相同的奖励,因此它们的行为都可解读为对该奖励的追求;该游戏充当了不同表征间的通用语言。给定人类提示,语言模型将其路由到语义最匹配的游戏,并设计一个环境状态,使得所需动作成为理性响应,从而让系统通过自身行为进行回复。将该框架应用于多种基因调控网络和强化学习任务,在不更改任何系统参数的情况下实现了流畅对话,表明不同来源的训练有素代理在行为上趋同,并揭示了特定GRN属性使系统更易或更难交流——即储层本身的归纳偏差。我们的框架开辟了一条以系统自身条件与任何动态系统对话的新途径。
查看原文
查看缓存全文

缓存时间: 2026/05/19 06:40

# 语言游戏:与非人类系统对话 来源:https://arxiv.org/html/2605.16321 Yanbo Zhang¹ Michael Levin¹,²  
¹塔夫茨大学艾伦发现中心,梅德福,马萨诸塞州,02155,美国  
²哈佛大学威斯生物启发工程研究所,波士顿,马萨诸塞州,02115,美国  

###### 摘要 语言在人类之间传递思想和协调行为,但很少能触及多样智能光谱的更远处。然而,非神经系统的系统——从基因调控网络和微生物群体到真菌——正越来越多地被视作计算、决策和记忆的基质,使得与非人类智能的对话变得新近可行。如今,这种对话仅通过代理尝试:大语言模型代表系统发言,因此任何展现的智能都源于模型,而系统本身保持沉默。在这里,我们探究系统能否用自己的声音说话。遵循维特根斯坦的观点,他将意义置于使用中,我们将通信视为与系统进行的一场游戏。系统的内部动力学被冻结为强化学习策略的非线性核心,仅训练线性输入和输出接口。通过使用和奖励,系统的状态和响应在游戏中获得意义,因此游戏即是说话。由于不同的架构玩同一场游戏优化相同的奖励,它们的行为都可被解读为追求该奖励;游戏充当了跨其他不可调和表征的通用语言。给定一个人类提示,语言模型将其路由到语义最匹配的游戏,并设计一个环境状态,在此状态下所需行动是理性响应,从而让系统通过自己的行为回复。该框架应用于多样化的基因调控网络和强化学习任务,实现了流畅的对话,无需更改任何系统参数,展示了不同来源的训练有素的智能体收敛于相似行为,并揭示了特定的GRN属性使系统更易或更难交谈——储层本身的归纳偏好。我们的框架开辟了一条以系统自身条件与任何动力系统对话的新途径。***

代码可在 https://github.com/Zhangyanbo/language-game 获取。  
*关键词* 语言游戏 ⋅ 物种间通信 ⋅ 基因调控网络 ⋅ 强化学习  

## 1 引言  

“一个词的意义在于它在语言中的使用。” —— 路德维希·维特根斯坦  

语言是人类分享思想、陈述目标和协调行为最强大的工具——然而,这种能力仍然主要局限于人与人之间的互动。越来越多的证据表明,非神经生物系统具有非平凡的计算能力:真菌产生的电尖峰模式具有类似语法的统计结构(adamatzky2022language,(https://arxiv.org/html/2605.16321#bib.bib1)),基因调控网络(GRN)表现出联想记忆和学习能力(biswas2021gene,(https://arxiv.org/html/2605.16321#bib.bib14)),而调控网络机器模型将GRN框架化为模拟计算的可编程基质(pietak2025harnessing,(https://arxiv.org/html/2605.16321#bib.bib71))。更广泛地说,多样智能领域正在揭示行为科学家长期以来与认知相关联的能力,这些能力跨越从分子和细胞系统到植物及其他非神经生命系统的各种非常规具身形式(kaygisiz2024molecular,(https://arxiv.org/html/2605.16321#bib.bib39); lyon2006biogenic,(https://arxiv.org/html/2605.16321#bib.bib55); lyon2015cognitive,(https://arxiv.org/html/2605.16321#bib.bib56); baluska2016nohead,(https://arxiv.org/html/2605.16321#bib.bib3); baluska2022cellular,(https://arxiv.org/html/2605.16321#bib.bib4); reber2021cognition,(https://arxiv.org/html/2605.16321#bib.bib72))。许多此类系统表现出学习、决策、即兴问题解决、在生理、转录、形态及其他问题空间中的目标导向导航,以及相关能力,这些能力表明了通过互补传统自下而上的机制追踪的方法来理解它们的机遇,并且在某些情况下是伦理上的必要性(levin2022tame,(https://arxiv.org/html/2605.16321#bib.bib46); levin2024multiscale,(https://arxiv.org/html/2605.16321#bib.bib48); mathews2023cellular,(https://arxiv.org/html/2605.16321#bib.bib59); rouleau2023multiple,(https://arxiv.org/html/2605.16321#bib.bib75))。综合来看,这些文献将许多生物系统置于“可说服性谱系”上(pietak2025harnessing,(https://arxiv.org/html/2605.16321#bib.bib71)):作为有能力的智能体,它们的内在目标原则上可以与外部目标对齐。这引出了激励我们工作的问题:我们能否使用自然语言与这类系统通信?弥合这一差距的尝试包括:行为学范式(pepperberg2021review,(https://arxiv.org/html/2605.16321#bib.bib69); HerzingStarner2025DolphinGemma,(https://arxiv.org/html/2605.16321#bib.bib34))、多智能体系统中的涌现通信(lazaridou2017multi,(https://arxiv.org/html/2605.16321#bib.bib43); mordatch2018emergence,(https://arxiv.org/html/2605.16321#bib.bib60))、部署为外部解释器的大语言模型(zhang2025exploring,(https://arxiv.org/html/2605.16321#bib.bib94); levine2024cellsentence,(https://arxiv.org/html/2605.16321#bib.bib51)),以及机器学习方法应用于动物通信(rutz2023using,(https://arxiv.org/html/2605.16321#bib.bib77); robinson2025naturelm,(https://arxiv.org/html/2605.16321#bib.bib73); sharma2024contextual,(https://arxiv.org/html/2605.16321#bib.bib81); pardo2024african,(https://arxiv.org/html/2605.16321#bib.bib64); oren2024vocal,(https://arxiv.org/html/2605.16321#bib.bib62))。综合来看,这些工作仍然受到一个反复出现的权衡的限制:系统通过外部模型被表示,或者分析恢复了结构和有限的语义功能,但没有提供通用的双向接口。我们的框架共同解决了这些限制,让系统自己回答,同时使用语义丰富的游戏环境使其行为具有通信性。受维特根斯坦语言游戏理论的启发(wittgenstein1968philosophical,(https://arxiv.org/html/2605.16321#bib.bib92)),我们观察到意义源于使用:人们学习语言是因为使用它有助于实现他们的目标(lewis2008convention,(https://arxiv.org/html/2605.16321#bib.bib52); rutz2023using,(https://arxiv.org/html/2605.16321#bib.bib77))。通过将一个主动学习的系统置于语义丰富的环境中,其目标导向的行为成为其语言。对于训练好的智能体,一个行动的意义在于其在环境中的使用。根据这一原则,与非人类系统通信变成了环境设计的任务。要指示狗跑向一棵树,就朝那个方向扔球——扔球游戏创造了一个共享的语境,在这个语境中,扔球对双方来说都成为一个有意义的信号。要从任何系统那里引发所需行动,人们设计一个使该行动成为系统最优策略的环境状态。  

参考图注 图1:(A)同一井字棋游戏状态的两种等价表示。人类在空间上感知游戏(三个连成一线获胜),而外星人则在数值上感知(幻方中三个数字之和为15获胜)。因为两种描述编码了相同的规则,任何一方都不需要理解另一方的表示;游戏本身充当了不相容认知架构之间的通用语言。(B)“与GRN对话”流水线。人类用户提供自然语言提示,LLM路由器将其映射到来自RL环境库中最语义相关的游戏。然后LLM设计一个特定的游戏状态,GRN智能体——其内部动力学固定——做出响应。智能体的行动既影响游戏,也被翻译器翻译回人类语言,这之所以可能,是因为游戏的状态和行动带有丰富的语义信息。这种双向翻译使得与非人类动力系统的对话成为可能。  

游戏作为媒介原则的普遍性通过一个思想实验得以阐明。井字棋至少有两种数学上等价的描述:一种空间描述(网格上三连一线)和一种数值描述(幻方中三个数字之和为15;图1 (https://arxiv.org/html/2605.16321#S1.F1)A)。因为两者编码了相同的规则,在空间上推理的人类和在算术上推理的外星人可以互相下棋,而无需理解对方的表示——游戏本身充当了通用语言。我们的框架利用了这一原则:一个精心选择的游戏在不兼容认知架构的智能体之间调解通信。为了实现这一点,我们基于储层计算(jaeger2004harnessing,(https://arxiv.org/html/2605.16321#bib.bib36); maass2002real,(https://arxiv.org/html/2605.16321#bib.bib57)),它利用固定的非线性动力系统作为计算基质。物理和生物系统可以作为有效的储层(CHIOLERIO2025105525,(https://arxiv.org/html/2605.16321#bib.bib20); ushio2023computational,(https://arxiv.org/html/2605.16321#bib.bib88)),特别是GRN架构表现出接近混沌边缘的结构特性,有利于计算(vidal2025structural,(https://arxiv.org/html/2605.16321#bib.bib90))。我们为动力系统配备线性编码器和解码器,同时保持其内部动力学冻结,创建一个策略,其中系统的动力学是非线性计算的唯一来源。强化学习在各种任务上训练这个复合智能体(第4节 (https://arxiv.org/html/2605.16321#S4))。LLM在人类语言提示和环境状态之间翻译(图1 (https://arxiv.org/html/2605.16321#S1.F1)B),建立双向通信。应用于14个GRN模型和洛伦兹吸引子,跨越16个强化学习任务,我们证明了GRN储层携带了真正的控制归纳偏好,各种训练有素的智能体收敛于可预测的行为,并且由此产生的框架能够与非人类动力系统对话。  

## 2 语言游戏  

我们将通信正式化为基于强化学习的目标对齐问题。核心思想是将系统的动力学封装在可训练的线性接口内,形成一个复合智能体,其唯一的非线性计算来自系统本身。如果这个智能体学会了最大化任务奖励,它对环境扰动的响应可以重新解释为追求任务的目标,并且任务的语义结构连同目标本身为通信提供了词汇。  

参考图注 图2:语言游戏框架。(A)策略π_f是线性编码器E、固定系统动力学f(评估为瞬时梯度)和线性解码器D的组合。智能体在RL任务上训练,以使系统的动力学与任务的目标对齐。这种对齐允许从人类提示p_H翻译到环境状态s,以及从系统动作a_S翻译回人类语言p_S。(B)人类到系统的翻译器T_{H→S}使用LLM。LLM从提示p_H推断目标g_p,并在提示选择的游戏R_f^{(p)}的背景下,生成将导致理性智能体表现如目标那样的环境状态s。(C)系统到人类的翻译器T_{S→H}对称地工作,相对于环境的隐含目标解释系统动作a_S,以生成关于系统行为的人类语言描述p_S。  

给定一个由dx/dt = f(x)定义的动力系统,我们定义策略为:  
π_f(s) = D[f(E(s))],   (1)  
它接受一个环境状态s ∈ ℝ^n并输出一个动作a_S ∈ ℝ^m。线性编码器E: ℝ^n → ℝ^d将状态映射到系统的d维内部空间。动力学f: ℝ^d → ℝ^d计算编码状态处的瞬时梯度——系统的内在响应,指示哪些变量在增加、哪些在减少以及以何种速率。线性解码器D: ℝ^d → ℝ^m将此梯度转换为动作。关键洞察在于f(x) = dx/dt已经编码了对任何给定状态的自然反应,提供了丰富的动作信号来源。在训练期间,动力学f保持冻结。  

许多动力系统仅在正卦限(ℝ^d_{>0})上定义,因为状态变量表示物理浓度。为了将编码器的无界输出投影到这个域中同时保留梯度流,我们应用直通估计器(STE)投影(bengio2013estimating,(https://arxiv.org/html/2605.16321#bib.bib11)):  
x̃ = x + [clamp(x, ε, M) - x]_{detach},   (2)  
其中[·]_{detach}表示停止梯度算子。在前向传递中,x̃被限制到[ε, M];在后向传递中,梯度未经修改地通过x流动。  

有了这个策略结构,我们可以阐述一个智能体与另一个智能体对话的含义:  
*智能体A用句子p与智能体B对话,当句子p导致B采取一个等同于p目标的动作a*。  
因此,通信等同于在选择的游戏中引发一个理性智能者为追求提示的目标所采取的行为。  

我们使用近端策略优化(PPO)(schulman2017proximal,(https://arxiv.org/html/2605.16321#bib.bib78))优化E和D以最大化累积奖励。Actor由方程1 (https://arxiv.org/html/2605.16321#S2.E1)定义,其中f冻结;Critic共享编码器E并使用MLP头来估计折现状态价值:  
V^{π_f}(s) = E_{π_f}[∑_{t=0}^{∞} γ^t r_t | s_0 = s] ≈ MLP(E(s)).   (3)  
在训练期间只更新E、D和Critic MLP。  

不同的动力系统可能擅长不同的任务。我们在一组任务R = {R_1, R_2, ...}上训练智能体,以及两个共享相同编码器-储层-解码器结构的对照:一个恒等基准(f(x) = x,将actor简化为线性映射)和一个mlp基准(一个具有非线性激活的两层MLP)。训练产生一个策略族{π_{f, R}}_{R∈R},每个任务一个,共同构成可用于通信的储备库。  

给定一个人类语言提示p_H,通信通过LLM辅助的路由和状态设计进行。一个路由器从储备库中选择语义最匹配提示的任务R_f^{(p)} ∈ R。在给定R_f^{(p)}和推断的目标g_p = G(p_H)的条件下,我们利用LLM的世界知识来设计将导致理性智能体执行所需动作的环境状态。人类到系统的翻译器是:  
T_{H→S}(p_H) = S_{LLM}(R_f^{(p)}, G(p_H)).

相似文章

学习交流

OpenAI Blog

OpenAI研究人员演示了协作型AI代理可以通过在简单世界中进行强化学习,发展出自己的有根据的和组合型语言。这些代理通过获得需要协调的目标奖励来学习交流,创建共享的符号语言以协调行为。

借助大语言模型发现强化学习接口

Hugging Face Daily Papers

本文介绍了 LIMEN,这是一个由大语言模型引导的演化框架,能够通过联合优化原始模拟器状态的观测映射与奖励函数,自动发现强化学习接口。该方法有效降低了人工设计成本,并证明了观测与奖励的协同设计优于单独优化其中任意单一组件。