arXiv

评估安全关键型ATR系统中的可解释性：事后方法的局限性与迈向稳健型XAI的路径

arXiv cs.AI ↗ · 昨天缓存

本文评估了安全关键型自动目标识别（ATR）系统中的可解释性方法，突出了显著性图和注意力图等事后技术的局限性。提出了一种分类法和评估框架，以解决虚假解释和不稳定性等问题，倡导采用更稳健、基于因果关系的XAI方法。

0 人收藏 0 人点赞

通过混合反馈在广义线性带臂中进行最佳臂识别

arXiv cs.AI ↗ · 昨天缓存

本文介绍了一种用于广义线性带臂中最佳臂识别的混合 Track-and-Stop 算法，该算法统一了绝对反馈和相对反馈。作者提出了一种基于似然比的置信序列以自适应分配查询，并证明了该方法在样本效率上优于基线方法。

0 人收藏 0 人点赞

HyperLens：利用细粒度置信度轨迹量化大型语言模型的认知努力

arXiv cs.AI ↗ · 昨天缓存

本文介绍了 HyperLens，一种高分辨率探针，可通过追踪层间的细粒度置信度轨迹来量化大型语言模型（LLMs）的认知努力。研究表明，复杂任务需要更高的认知努力，并展示了监督微调（SFT）如何降低这种努力，从而可能导致性能下降。

0 人收藏 0 人点赞

ReFlect：用于复杂长周期大语言模型推理的有效包装系统

arXiv cs.AI ↗ · 昨天缓存

本文介绍了 ReFlect，这是一种无需训练的包装系统，通过为大语言模型包裹确定性的错误检测与恢复逻辑，来提升其在复杂、长周期推理任务上的性能。

0 人收藏 0 人点赞

SDFlow：用于时间序列生成的相似性驱动流匹配

arXiv cs.AI ↗ · 昨天缓存

本文介绍了 SDFlow，这是一种用于时间序列生成的相似性驱动流匹配框架，旨在解决自回归模型中的暴露偏差问题。通过在冻结的 VQ 潜在空间中进行低秩流形分解，SDFlow 实现了最先进的性能并显著提升了推理速度。

0 人收藏 0 人点赞

基于优化深度学习与 LLM 驱动智能 AI 在计算受限系统上进行膝关节骨关节炎严重程度分级

arXiv cs.AI ↗ · 昨天缓存

本文介绍了一种用于分级膝关节骨关节炎严重程度的自动化诊断系统，该系统使用通过 TensorFlow Lite 部署在边缘设备上的优化 ResNet-18 模型。它集成了使用 Gemini 2.0 Flash 的大型语言模型（LLM）接口，在提供结构化解释性发现的同时，保持了在资源受限环境下的离线能力。

0 人收藏 0 人点赞

SkillRet：面向 LLM 智能体技能检索的大规模基准

arXiv cs.AI ↗ · 昨天缓存

本文提出了 SkillRet，这是一个用于评估 LLM 智能体技能检索的大规模基准，旨在解决从大型技能库中选择相关技能的挑战。该基准提供了包含超过 17,000 项技能的 dataset，并证明针对特定任务的微调能显著提升检索性能。

0 人收藏 0 人点赞

像专家一样检测时间序列异常：一种具有专用分析器的多智能体 LLM 框架

arXiv cs.AI ↗ · 昨天缓存

本文介绍了 SAGE，这是一种用于时间序列异常检测的多智能体 LLM 框架，它利用专用分析器来提高可解释性和可靠性。该框架在三个基准测试中表现出优于基线模型的性能，并通过结构化证据整合增强了诊断报告的质量。

0 人收藏 0 人点赞

多并非总是更好：大语言模型智能体搭建中的跨组件干扰

arXiv cs.AI ↗ · 昨天缓存

本文挑战了“向大语言模型智能体添加更多搭建组件总能提升性能”的假设，通过系统实验证明，跨组件干扰往往会导致性能下降。研究发现，在各种模型规模下，更简单、针对特定任务的组件子集通常优于配备齐全的“全能型”智能体。

0 人收藏 0 人点赞

可解码但无法通过固定残差流线性转向纠正：来自医疗大语言模型失效模式的证据

arXiv cs.AI ↗ · 昨天缓存

本文研究了大语言模型隐藏状态中线性可解码的失效信号是否可以通过残差流转向进行纠正。研究发现，虽然“过度思考”失效模式是可解码的，但由于其与任务关键计算的表示纠缠，固定的线性转向未能纠正这些失效，尽管探测探针有效地支持了选择性拒绝回答。

0 人收藏 0 人点赞

隐藏、重建与越狱：利用多模态大语言模型中的重建-隐藏权衡

arXiv cs.AI ↗ · 昨天缓存

本文分析了针对多模态大语言模型（MLLMs）的意图混淆越狱攻击中存在的重建-隐藏权衡问题。提出了感知隐藏的变体构建方法和与关键词相关的干扰图像，以更有效地利用模型漏洞。

0 人收藏 0 人点赞

通过随机因果表征学习解决个性化医疗中的偏差-精度悖论

arXiv cs.AI ↗ · 昨天缓存

本文提出了一种随机因果表征学习框架，以解决个性化医疗中的偏差-精度悖论，并证明了其在重症监护室（ICU）临床决策支持中提高了准确性和可解释性。

0 人收藏 0 人点赞

利用知识图谱路径作为自进化搜索代理的中间监督

arXiv cs.AI ↗ · 昨天缓存

本文介绍了一种利用知识图谱路径作为中间监督来提升自进化搜索代理性能的方法。该方法通过将问题构建建立在关系上下文之上，并引入航点覆盖奖励（Waypoint Coverage Reward）以实现分级部分奖励，从而解决了搜索自博弈（Search Self-Play）中的瓶颈问题。

0 人收藏 0 人点赞

大语言模型搜索代理的推理时预算控制

arXiv cs.AI ↗ · 昨天缓存

本文提出了一种用于大语言模型（LLM）搜索代理的两阶段推理时预算控制方法，利用信息价值（VOI）分数在多跳问答过程中优化工具调用和 Token 分配。

0 人收藏 0 人点赞

面向大语言模型的显著性感知正则化量化校准

arXiv cs.AI ↗ · 昨天缓存

本文提出了显著性感知正则化量化校准（SARQC），这是一个统一的框架，通过添加正则化项以保持权重接近度，从而改善大语言模型（LLM）的训练后量化（PTQ），提升泛化能力和性能。

0 人收藏 0 人点赞

GCCM：通过对比一致性模型增强生成图预测

arXiv cs.AI ↗ · 昨天缓存

本文介绍了 GCCM，一种图对比一致性模型。该模型通过引入负样本对和特征扰动，缓解了一致性训练中的捷径问题，从而提升了生成图预测的效果。

0 人收藏 0 人点赞

DataDignity：用于大型语言模型的训练数据归属

arXiv cs.AI ↗ · 昨天缓存

本文介绍了 DataDignity，这是一个针对精准溯源（pinpoint provenance）的框架与基准（FakeWiki），旨在识别支持大语言模型（LLM）回答的具体训练数据来源。文章提出了 ScoringModel 和 SteerFuse 两种方法，以在标准检索基线之上提高归属准确率。

0 人收藏 0 人点赞

Transformer 记忆的吸引子几何：从冲突仲裁到自信幻觉

arXiv cs.AI ↗ · 昨天缓存

本文提出了一个统一的几何框架，用于理解 Transformer 的内存故障，通过隐藏状态吸引子盆地（attractor basins）区分冲突仲裁与幻觉。研究表明，随着模型规模的扩大，几何边际（geometric margin）在检测这些故障方面优于输出熵。

0 人收藏 0 人点赞

风险链条：大型推理模型中的安全失效及通过自适应多原则引导进行缓解

arXiv cs.AI ↗ · 昨天缓存

本文研究了大型推理模型中的安全失效问题，即尽管最终答案安全，但推理轨迹中仍会出现有害内容，并提出了一种自适应多原则引导方法来缓解这些风险。

0 人收藏 0 人点赞

大型视觉-语言模型在注意力机制中迷失

arXiv cs.AI ↗ · 昨天缓存

这篇研究论文利用信息论分析了大型视觉-语言模型（LVLM）的内部机制，揭示了注意力机制可能存在冗余，而前馈网络才是推动语义创新的关键。作者证明，将学习到的注意力权重替换为随机值仍可获得相当的性能，这表明当前模型“在注意力中迷失”。

0 人收藏 0 人点赞

arXiv

提交意见反馈