temporal-reasoning

标签

Cards List
#temporal-reasoning

何时与多久?时间推理中的读出-中介角度

arXiv cs.LG · 6天前 缓存

本文引入读出-中介角度,证明线性探针可以从语言模型激活中解码出与模型实际因果计算正交的信息,从而削弱了基于探针的可解释性。该发现跨模型规模和系列得到复现,揭示出使用探针进行机制理解或安全监控的一个根本性失败模式。

0 人收藏 0 人点赞
#temporal-reasoning

AsyncTool:多任务场景下异步函数调用能力评估

Hugging Face Daily Papers · 2026-05-27 缓存

本文介绍了AsyncTool,一个用于评估基于LLM的智能体在多任务场景下具有延迟工具响应的异步函数调用能力的基准测试。它提出了面向效率的度量指标,并识别了当前工具使用智能体的关键失败模式。

0 人收藏 0 人点赞
#temporal-reasoning

LiFT:指令微调能否提升大语言模型的纵向建模上下文学习能力?

arXiv cs.CL · 2026-04-21 缓存

## 指令微调能否提升大语言模型的纵向建模上下文学习能力? 来源:[https://arxiv.org/html/2604.16382](https://arxiv.org/html/2604.16382) Iqra Ali¹, Talia Tseriotou¹, Mahmud Elahi Akhter¹, Yuxiang Zhou¹, Maria Liakata¹,² ¹伦敦玛丽女王大学(英国),²艾伦·图灵研究所(英国) {iqra.ali,t.tseriotou,m.liakata}@qmul.ac.uk ###### 摘要 纵向NLP任务要求对时间有序的文本进行推理,以检测人类行为和观点的持续性和变化。然而,大语言模型的上下文学习在模型必须整合历史上下文、跟踪不断演变的交互,以及处理罕见变化事件的任务上存在困难。我们提出了LiFT,一个纵向指令微调框架,将多样化的纵向建模任务统一在共享的指令模式之下。LiFT采用课程式方法,在逐步增加时间难度的同时融入少样本结构和时间条件化,以鼓励有效利用过去上下文。我们在五个数据集上评估了LiFT。在不同时间粒度级别上针对纵向任务训练的模型,在两个独立数据集上进行了泛化能力测试。在不同参数规模的模型(OLMo(1B/7B)、LLaMA-8B和Qwen-14B)中,LiFT始终优于基线模型的上下文学习,在分布外数据和少数类变化事件上表现出显著的提升。

0 人收藏 0 人点赞
#temporal-reasoning

Zep:一种用于智能体记忆的时序知识图谱架构

Papers with Code Trending · 2025-01-20 缓存

本文介绍了 Zep,这是一种用于智能体(agent)记忆的时间知识图谱架构,在 DMR 和 LongMemEval 等基准测试中表现优于 MemGPT。文章强调了 Zep 在企业级用例中处理动态知识融合和时间推理的能力。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈