@HuggingPapers: 何时LLM应更新、保留或忽略信息?上下文信念管理正是长程推理所需。…
摘要
介绍BeliefTrack,一种LLM上下文信念管理方法,将推理错误减少超过70%。
何时LLM应更新、保留或忽略信息?
上下文信念管理正是长程推理所缺失的。我们推出BeliefTrack——并展示优化信念状态可将推理错误减少超过70%。https://t.co/7gwuNLNd1t
查看缓存全文
缓存时间: 2026/05/31 04:58
大语言模型应在何时更新、保留或忽略信息?
上下文信念管理正是长程推理所缺失的。我们引入BeliefTrack——并展示优化信念状态可将推理错误减少超过70%。https://t.co/7gwuNLNd1t
相似文章
模型何时该改变想法?大语言模型中的情境信念管理
本文介绍了面向大语言模型的情境信念管理(CBM)以处理长期信息,提出了用于评估的BeliefTrack基准,并展示了强化学习和表示层面引导显著减少了信念管理失败。
并行LLM推理实现抗偏差、稳健的概念抽象
本文提出了一种并行分块处理长文档的框架,利用LLMs减少累积偏差并提高证据可追溯性,显著降低了遗漏错误和无依据主张。
信念引擎:多智能体LLM协商中可配置且可检查的立场动态
本文介绍了信念引擎(Belief Engine),这是一种为LLM智能体设计的可审计信念更新层,通过将信念视为具有显式更新规则的证据状态,使得多智能体协商中的立场变化变得可配置且可检查。
LLMs知道自己知道,但并未据此行动:一种用于测试时扩展的元认知框架
本文提出一种元认知框架,将LLMs中的监控与推理分离,利用解决前的已知感(feeling-of-knowing)和解决后的学习判断(judgment-of-learning)信号来控制何时信任、重试或聚合答案,在不更新参数的情况下提升文本、代码和多模态基准测试的准确率。
当正确信念崩溃时:临床压力下LLMs的认知韧性
本文研究了大型语言模型在临床环境中面对对抗性压力时如何维持正确信念,提出了R-FT微调方法以在平衡可纠正性的同时提升认知韧性,并在医学基准测试中展示了显著的鲁棒性提升。