最新

全部文章,按抓取时间从新到旧排列。

Cards List

SHAPE: 面向稀疏混合专家大语言模型的联盟感知专家剪枝

arXiv cs.LG · 3小时前 缓存

SHAPE提出了一种面向稀疏MoE大语言模型的联盟感知专家剪枝框架,该框架利用路由轨迹上的Shapley式归因来识别关键专家,在20-40%剪枝率下实现了有竞争力的准确率,并降低了GPU内存占用。

0 人收藏 0 人点赞

Infini Memory:用于长期LLM智能体记忆的可维护主题文档

arXiv cs.AI · 3小时前 缓存

介绍了Infini Memory,一种用于LLM智能体的可维护基于文本的持久化记忆架构。它使用主题结构化文档和迭代检索来改进长期记忆使用,在MemoryAgentBench上达到了64.7%的得分。

0 人收藏 0 人点赞

TENP: 用于混合专家的梯形专家神经元剪枝

arXiv cs.LG · 3小时前 缓存

TENP 提出了一种用于混合专家大语言模型的结构化剪枝框架,该框架保留重要专家,对较不重要的专家进行神经元剪枝,从而在 Qwen 和 DeepSeek 模型上实现高稀疏度且精度损失极小。

0 人收藏 0 人点赞

学会记住什么:面向长时域语言代理的基于约束优化的可观测性安全记忆保留

arXiv cs.AI · 3小时前 缓存

本文将为长时域语言代理的记忆保留公式化为一个约束随机优化问题,提出了OSL-MR框架,该框架通过混合评分启发式强制实施可观测性安全学习。实验表明,在严格记忆预算下,该方法始终优于现有的启发式基线。

0 人收藏 0 人点赞

TD-Grokking:通过训练时分解从零奖励问题中学习

arXiv cs.LG · 3小时前 缓存

提出TD-Grokking,一种训练时分解框架,递归地将棘手的零奖励问题分解为可验证的子问题,使大语言模型能够从失败轨迹中学习。在数学和医学推理任务上优于普通GRPO及基线方法。

0 人收藏 0 人点赞

ActiveMem:面向长程LLM推理的分布式主动记忆

arXiv cs.AI · 3小时前 缓存

ActiveMem提出了一种分布式主动记忆系统,将智能体记忆与大模型核心推理过程解耦,在长程任务上实现了最先进的准确率,同时显著降低了开销。

0 人收藏 0 人点赞

朝向校准、公平且准确的深度伪造检测

arXiv cs.LG · 3小时前 缓存

介绍Face-Fairness (FF),一种用于深度伪造检测中偏见缓解的即插即用框架,其中Face-Feature Tuning (FFT)作为首个无需人口统计标签的公平性方法,能够提升群体准确率并缩小不同人口统计群体间的性能差距。

0 人收藏 0 人点赞

HIPIF: 面向长期LLM智能体学习的分层规划与信息折叠

arXiv cs.AI · 3小时前 缓存

介绍了HIPIF,一种通过分层规划与信息折叠来训练LLM智能体处理长期任务的方法,旨在减少长上下文干扰,在三个基准测试上取得了优异结果。

0 人收藏 0 人点赞

面向大规模动态加权有向网络的张量潜在因子超参数学习方法

arXiv cs.LG · 3小时前 缓存

本文提出一种基于差分进化的张量潜在因子自动超参数优化框架,以提高大规模动态加权有向网络的预测精度,减少手动调参需求。

0 人收藏 0 人点赞

无配对数据的跨模态知识蒸馏:理论基础与算法

arXiv cs.AI · 3小时前 缓存

本文提出了一种无需配对数据的跨模态知识蒸馏框架,通过对齐特征分布与标签分布,提供了理论保证,并在多模态基准测试中优于先前方法。

0 人收藏 0 人点赞

面向Tensix架构的大语言模型推理中的算子融合

arXiv cs.LG · 3小时前 缓存

本文提出了一种针对Tenstorrent Tensix架构上大语言模型推理的算子融合策略,将RMSNorm与矩阵乘法融合,以提高数据局部性并减少DRAM访问。在Wormhole平台上,使用Qwen2.5-0.5B、Qwen3-0.6B和Qwen3-4B进行的实验显示,注意力模块延迟降低高达37.44%,MLP延迟降低15.89%。

0 人收藏 0 人点赞

一种基于置信规则库并考虑鲁棒性分析的可靠故障诊断方法

arXiv cs.AI · 3小时前 缓存

本文提出了一种基于置信规则库并考虑鲁棒性分析的可靠故障诊断方法,解决了传感器可靠性问题,并在WD615柴油机和轴承数据集上验证了该方法。

0 人收藏 0 人点赞

FailureScope:跨场景语言模型弱点的行为诊断方法

arXiv cs.LG · 3小时前 缓存

FailureScope是一种行为诊断方法,通过跨模型的通过/失败模式对评估探针进行聚类,生成可解释的失败分类体系,并在单轮基准测试、多轮对话和对抗性智能体攻击中得到了验证。

0 人收藏 0 人点赞

PlanGPT补充研究:基于定义性能指标的评估及与规划器比较

arXiv cs.AI · 3小时前 缓存

本文对PlanGPT(一种用于自动规划的大型语言模型)进行了补充评估,使用了规划成本和规划生成时间指标,并发现PlanGPT的表现并不优于贪婪搜索策略。

0 人收藏 0 人点赞

ComBench:一个用于奥林匹克级组合数学严谨证明推理与构造实现的基准

arXiv cs.AI · 3小时前 缓存

ComBench 是一个奥林匹克级组合数学基准测试,包含100道题目,旨在评估大语言模型的严谨证明推理与构造实现能力。结果表明,像GPT-5.5这样的前沿模型仅达到65.4%的总体平均分,并且这两种能力是截然不同的。

0 人收藏 0 人点赞

Trace2Policy:从专家行为痕迹到自我进化决策代理

arXiv cs.AI · 3小时前 缓存

Trace2Policy 从专家行为痕迹中提取人类可读的决策规则,并通过错误驱动的技能精炼进行迭代优化,在物流领域的合规敏感任务上优于纯LLM基线。

0 人收藏 0 人点赞

灵魂计算:具有独立意识的智能体的理论框架与技术架构

arXiv cs.AI · 3小时前 缓存

本文提出“灵魂计算”这一理论框架,用于构建具有独立意识的智能体,并将其与情感计算和传统虚拟人类区分开来,同时概述了分层技术架构及实现过程中的核心挑战。

0 人收藏 0 人点赞

流式知识编译:面向时变LLM维基的主动重要性评分固定

arXiv cs.LG · 3小时前 缓存

本文形式化了LLM维基的流式知识编译,引入了一个重要性信号,用于在token预算下从流式语料库中主动固定重要文档。它证明了O(√(T log K))的遗憾界,并在金融和维基百科领域验证了该方法,表明遗憾分析是一种可靠的评估指标。

0 人收藏 0 人点赞

统一多模态智能金融系统框架:整合强化学习、高频交易、博弈论方法与跨模态情感分析

arXiv cs.AI · 3小时前 缓存

本文提出了一种统一的多模态框架,融合强化学习、高频交易、博弈论方法及跨模态情感分析,用于构建智能金融系统,并声称相比单领域系统有显著提升。

0 人收藏 0 人点赞

校准过度自信而不牺牲置信度:面向LLMs的探针条件化头部干预

arXiv cs.LG · 3小时前 缓存

本文介绍了一种推理时方法——探针条件化头部干预(PCHI),该方法通过在模型可能错误但保持高置信度时条件性地重新缩放注意力头输出,有选择地减少对错误答案的过度自信,同时不会显著降低对正确答案的置信度。

0 人收藏 0 人点赞
← 上一页
下一页 →
← 返回首页

提交意见反馈