TRN-R1-Zero:仅通过强化学习实现富文本网络推理

arXiv cs.CL 论文

摘要

TRN-R1-Zero 提出一种后训练框架,让大模型在无需监督微调或思维链数据的情况下,仅凭强化学习即可对富文本网络进行零样本推理。

arXiv:2604.19070v1 公告类型:新增 摘要:在富文本网络(TRN)上进行零样本推理仍是前沿难题,模型必须在没有任务特定监督的前提下融合文本语义与关系结构。图神经网络依赖固定标签空间与监督目标,而近期基于大语言模型(LLM)的方法要么忽略图上下文,要么依赖大模型蒸馏,泛化受限。我们提出 TRN-R1-Zero,一个仅通过强化学习训练的后训练框架,用于 TRN 推理。TRN-R1-Zero 使用“邻域感知群体相对策略优化”目标直接优化基础 LLM,该目标基于新颖的边际增益指标动态调整奖励,衡量邻域信号的信息量,有效引导模型进行关系推理。与先前方法不同,TRN-R1-Zero 无需监督微调,也无需大型推理模型生成的思维链数据。在引用、超链接、社交与共同购买四类 TRN 基准上的大量实验表明 TRN-R1-Zero 的优越性与鲁棒性。此外,TRN-R1-Zero 严格基于节点级训练,却能在边级与图级任务上实现零样本推理,跨越领域迁移。代码已开源:https://github.com/superallen13/TRN-R1-Zero
查看原文
查看缓存全文

缓存时间: 2026/04/22 08:30

# TRN-R1-Zero:仅通过强化学习实现基于大语言模型的文本富网络推理  
来源:https://arxiv.org/html/2604.19070  
Zi Huang  
昆士兰大学电气工程与计算机科学学院,澳大利亚昆士兰州布里斯班  
{yilun.liu, r.qiu, helen.huang}@uq.edu.au  

###### 摘要  
在文本富网络(TRN)上进行零样本推理仍是前沿难题:模型必须在无任务特定监督的前提下,融合文本语义与关系结构。图神经网络依赖固定标签空间与监督目标,而近期基于大语言模型(LLM)的方法要么忽视图上下文,要么依赖更大模型的蒸馏,泛化受限。我们提出 TRN-R1-Zero,一种仅通过强化学习完成 TRN 推理的后训练框架。TRN-R1-Zero 直接用“邻域感知群体相对策略优化”目标对基座 LLM 进行优化,该目标通过新颖的边际增益指标动态调整奖励,有效引导模型利用邻域信号进行关系推理。与现有方法不同,TRN-R1-Zero 无需监督微调,也无需从大推理模型生成思维链数据。在引文、超链接、社交与共购四类 TRN 基准上的大量实验表明,TRN-R1-Zero 具备优越性与鲁棒性。此外,TRN-R1-Zero 仅在节点级训练,却能在边级与图级任务上实现零样本推理,跨越跨域迁移边界。代码已开源:https://github.com/superallen13/TRN-R1-Zero。

TRN-R1-Zero:仅通过强化学习实现基于大语言模型的文本富网络推理  
Yilun Liu, Ruihong Qiu, Zi Huang  
昆士兰大学电气工程与计算机科学学院,澳大利亚昆士兰州布里斯班  
{yilun.liu, r.qiu, helen.huang}@uq.edu.au  

## 1 引言  
文本分类是自然语言处理的基石,支撑信息检索、内容推荐等应用。然而现实中,文本很少孤立存在:论文互相引用、维基页面通过超链接互联、社交网络用户彼此关注、电商产品常一起被购买。这些关系天然构成文本富网络(TRN),节点为文本实体,边承载语义或功能关联。如图 1 所示,引文、超链接、社交与共购领域的 TRN 呈现丰富的关系结构,远超孤立文档理解范畴。在零样本场景下,无需领域特定监督即可对 TRN 进行有效推理,是实现更可泛化、上下文感知语言智能的关键一步。

现有 LLM 节点分类方法大致分两派:  
1. 编码器派:用 LLM 编码节点与标签文本,再通过结构感知机制聚合邻居嵌入,最后计算节点-标签相似度。然而这类方法仅把 LLM 当特征提取器,未显式利用其推理能力。  
2. 生成派:将节点分类转化为标签词元生成任务。部分工作通过可学习映射将图结构投影到 LLM 词元空间,形成软嵌入;另一些则用自然语言直接描述图结构。近期研究尝试通过思维链数据从大推理模型(LRM)蒸馏推理能力,但仍需外部监督或资源。

表 1 对比可见,TRN-R1-Zero 无需 LRM 或其生成的 CoT 数据,即可在图任务上习得推理能力。

为突破上述局限,我们提出 TRN-R1-Zero:一个纯强化学习框架,无需监督微调或外部蒸馏,即可在 TRN 上显式推理。我们设计“邻域感知群体相对策略优化”目标,配合边际增益机制,利用局部邻域信息作为自适应信号,引导模型在未知领域进行关系推理,从而激活 LLM 内在推理能力,而非依赖外部监督。

主要贡献:  
1. 首个仅通过 RL 完成 TRN 零样本节点分类的流水线,无需蒸馏、SFT 或外部 LRM。  
2. 引入邻域感知策略目标与边际增益机制,显式鼓励利用关系上下文。  
3. 在引文、超链接、社交、共购 TRN 上大量实验,展示跨域、跨任务零样本优势。

## 2 相关研究  
#### 大模型节点分类  
编码器派用 LM/LLM 编码节点与标签,再通过外部算法聚合邻居信息,但模型小、数据少导致泛化受限,且未利用 LLM 推理能力。生成派把分类做成文本生成,或投影图为软嵌入,或用自然语言描述图结构。近期工作尝试从 LRM 蒸馏 CoT,但仍依赖外部推理资源。

#### 大模型推理  
基于 RL 的 LLM 已在数学、规划、代码等任务展现人类级推理表现。PPO 是主流基础,GRPO 无需人工标注即可习得推理,Dr.GRPO 进一步改善奖励塑形。对于结构化数据,GraphWiz 与 Graph-NPH-R1 借助 LRM 生成 CoT 解决图论问题;Graph-R1 针对文本富图,用 LRM 产生长 CoT 监督小模型。相比之下,TRN-R1-Zero 无需任何 LRM 或其 CoT 数据,直接激发基座模型推理能力。

## 3 方法:TRN-R1-Zero  
图 2 展示整体训练流水线,包含三大核心:图采样、提示构建、邻域感知策略目标。

### 3.1 零样本节点分类  
给定 TRN G=(V,E,Y),节点集 V 带文本,边集 E 捕获关系,标签集 Y 为文本描述。目标是在无任何监督的情况下,预测目标节点 v_i∈V 的标签。

#### 分类即词元生成  
对 LLM M_θ,输入为目标节点文本 t_i、邻域 N(v_i)、候选标签 Y。每个标签 y∈Y 映射为离散标识词元(如“1”“2”“3”)。于是节点分类被重定义为下一词元预测:  
ŷ_i = arg max_{y∈Y} P_θ(y | P(t_i, N(v_i), Y))  
其中 P(·) 为融合节点、邻居、标签信息的提示。

### 3.2 带邻域采样的提示  
LLM 输入由目标节点文本、采样邻居文本、候选标签描述组成,采用指令风格(见下方框 1)。邻域采样既控制长度,又充当数据增强:对每个目标节点,按固定宽度-深度策略随机采多个子图,宽度限制邻居数量,深度截断邻居文本。通过多次抽取不同邻居子集,LLM 接触多样局部上下文,扩充训练语料并缓解低资源图场景下的过拟合。

框 1:TRN-R1-Zero 训练提示  
# 系统提示  
你是乐于助人的 AI 助手,给出有理有据的详细回答。先用内心独白思考推理过程,再返回答案。格式如下:  
...  
...  

# 图提示  
目标节点:{target_node_text}  
邻居节点:{neighbor_node_text}  

# 任务指令  
我提供目标节点及其邻居的内容...

相似文章

MindZero:零标注下的在线心智推理学习

arXiv cs.AI

MindZero 提出了一种自监督强化学习框架,用于训练多模态大语言模型,使其能够高效且鲁棒地进行在线心智推理,而无需心智状态标注,在准确性和效率上均优于基于模型的方法。