标签
本文介绍了 OracleTSC,该方法利用 Oracle 信息奖励门槛和不确定性正则化来稳定大语言模型(LLMs)在交通信号控制中的强化微调。实验表明,该方法在使用 LLaMA-3-8B 模型的同时保持了可解释性,并在 LibSignal 基准测试中显著提升了交通流量指标。