全部文章,按抓取时间从新到旧排列。
SHAPE提出了一种面向稀疏MoE大语言模型的联盟感知专家剪枝框架,该框架利用路由轨迹上的Shapley式归因来识别关键专家,在20-40%剪枝率下实现了有竞争力的准确率,并降低了GPU内存占用。
介绍了Infini Memory,一种用于LLM智能体的可维护基于文本的持久化记忆架构。它使用主题结构化文档和迭代检索来改进长期记忆使用,在MemoryAgentBench上达到了64.7%的得分。
TENP 提出了一种用于混合专家大语言模型的结构化剪枝框架,该框架保留重要专家,对较不重要的专家进行神经元剪枝,从而在 Qwen 和 DeepSeek 模型上实现高稀疏度且精度损失极小。
本文将为长时域语言代理的记忆保留公式化为一个约束随机优化问题,提出了OSL-MR框架,该框架通过混合评分启发式强制实施可观测性安全学习。实验表明,在严格记忆预算下,该方法始终优于现有的启发式基线。
提出TD-Grokking,一种训练时分解框架,递归地将棘手的零奖励问题分解为可验证的子问题,使大语言模型能够从失败轨迹中学习。在数学和医学推理任务上优于普通GRPO及基线方法。
ActiveMem提出了一种分布式主动记忆系统,将智能体记忆与大模型核心推理过程解耦,在长程任务上实现了最先进的准确率,同时显著降低了开销。
介绍Face-Fairness (FF),一种用于深度伪造检测中偏见缓解的即插即用框架,其中Face-Feature Tuning (FFT)作为首个无需人口统计标签的公平性方法,能够提升群体准确率并缩小不同人口统计群体间的性能差距。
介绍了HIPIF,一种通过分层规划与信息折叠来训练LLM智能体处理长期任务的方法,旨在减少长上下文干扰,在三个基准测试上取得了优异结果。
本文提出了一种针对Tenstorrent Tensix架构上大语言模型推理的算子融合策略,将RMSNorm与矩阵乘法融合,以提高数据局部性并减少DRAM访问。在Wormhole平台上,使用Qwen2.5-0.5B、Qwen3-0.6B和Qwen3-4B进行的实验显示,注意力模块延迟降低高达37.44%,MLP延迟降低15.89%。
本文提出了一种基于置信规则库并考虑鲁棒性分析的可靠故障诊断方法,解决了传感器可靠性问题,并在WD615柴油机和轴承数据集上验证了该方法。
FailureScope是一种行为诊断方法,通过跨模型的通过/失败模式对评估探针进行聚类,生成可解释的失败分类体系,并在单轮基准测试、多轮对话和对抗性智能体攻击中得到了验证。
本文对PlanGPT(一种用于自动规划的大型语言模型)进行了补充评估,使用了规划成本和规划生成时间指标,并发现PlanGPT的表现并不优于贪婪搜索策略。
ComBench 是一个奥林匹克级组合数学基准测试,包含100道题目,旨在评估大语言模型的严谨证明推理与构造实现能力。结果表明,像GPT-5.5这样的前沿模型仅达到65.4%的总体平均分,并且这两种能力是截然不同的。
Trace2Policy 从专家行为痕迹中提取人类可读的决策规则,并通过错误驱动的技能精炼进行迭代优化,在物流领域的合规敏感任务上优于纯LLM基线。
本文提出“灵魂计算”这一理论框架,用于构建具有独立意识的智能体,并将其与情感计算和传统虚拟人类区分开来,同时概述了分层技术架构及实现过程中的核心挑战。
本文形式化了LLM维基的流式知识编译,引入了一个重要性信号,用于在token预算下从流式语料库中主动固定重要文档。它证明了O(√(T log K))的遗憾界,并在金融和维基百科领域验证了该方法,表明遗憾分析是一种可靠的评估指标。
本文提出了一种统一的多模态框架,融合强化学习、高频交易、博弈论方法及跨模态情感分析,用于构建智能金融系统,并声称相比单领域系统有显著提升。
本文介绍了一种推理时方法——探针条件化头部干预(PCHI),该方法通过在模型可能错误但保持高置信度时条件性地重新缩放注意力头输出,有选择地减少对错误答案的过度自信,同时不会显著降低对正确答案的置信度。