研究者提出将认知科学中的"global ignition"意识机制应用于长上下文工程,提出MiA-Signature方法使用子模选择高层概念覆盖激活空间,应用于RAG和agentic系统后获得一致性能提升。
Token AI发布了一篇研究论文,介绍STAM——一种新型自适应动量优化器,旨在提升训练稳定性并降低内存占用,相比AdamW等标准优化器效果更优。
神经网络表面会说英文,但内部在几何空间里组织信息(曲线、环、曲面、流形),理解“神经几何”可能是理解、调试和控制模型的关键。
一篇全面回顾推理型LLM强化学习现状的博文,涵盖从REINFORCE、PPO到GRPO乃至更多方法,并与InstructGPT、DeepSeek-R1等关键模型相联系。
本文评估了安全关键型自动目标识别(ATR)系统中的可解释性方法,突出了显著性图和注意力图等事后技术的局限性。提出了一种分类法和评估框架,以解决虚假解释和不稳定性等问题,倡导采用更稳健、基于因果关系的XAI方法。
本文介绍了一种用于广义线性带臂中最佳臂识别的混合 Track-and-Stop 算法,该算法统一了绝对反馈和相对反馈。作者提出了一种基于似然比的置信序列以自适应分配查询,并证明了该方法在样本效率上优于基线方法。
本文介绍了 HyperLens,一种高分辨率探针,可通过追踪层间的细粒度置信度轨迹来量化大型语言模型(LLMs)的认知努力。研究表明,复杂任务需要更高的认知努力,并展示了监督微调(SFT)如何降低这种努力,从而可能导致性能下降。
本文介绍了 ReFlect,这是一种无需训练的包装系统,通过为大语言模型包裹确定性的错误检测与恢复逻辑,来提升其在复杂、长周期推理任务上的性能。
本文介绍了 SDFlow,这是一种用于时间序列生成的相似性驱动流匹配框架,旨在解决自回归模型中的暴露偏差问题。通过在冻结的 VQ 潜在空间中进行低秩流形分解,SDFlow 实现了最先进的性能并显著提升了推理速度。
本文介绍了一种用于分级膝关节骨关节炎严重程度的自动化诊断系统,该系统使用通过 TensorFlow Lite 部署在边缘设备上的优化 ResNet-18 模型。它集成了使用 Gemini 2.0 Flash 的大型语言模型(LLM)接口,在提供结构化解释性发现的同时,保持了在资源受限环境下的离线能力。
本文提出了 SkillRet,这是一个用于评估 LLM 智能体技能检索的大规模基准,旨在解决从大型技能库中选择相关技能的挑战。该基准提供了包含超过 17,000 项技能的 dataset,并证明针对特定任务的微调能显著提升检索性能。
本文介绍了 SAGE,这是一种用于时间序列异常检测的多智能体 LLM 框架,它利用专用分析器来提高可解释性和可靠性。该框架在三个基准测试中表现出优于基线模型的性能,并通过结构化证据整合增强了诊断报告的质量。
本文挑战了“向大语言模型智能体添加更多搭建组件总能提升性能”的假设,通过系统实验证明,跨组件干扰往往会导致性能下降。研究发现,在各种模型规模下,更简单、针对特定任务的组件子集通常优于配备齐全的“全能型”智能体。
本文研究了大语言模型隐藏状态中线性可解码的失效信号是否可以通过残差流转向进行纠正。研究发现,虽然“过度思考”失效模式是可解码的,但由于其与任务关键计算的表示纠缠,固定的线性转向未能纠正这些失效,尽管探测探针有效地支持了选择性拒绝回答。
本文分析了针对多模态大语言模型(MLLMs)的意图混淆越狱攻击中存在的重建-隐藏权衡问题。提出了感知隐藏的变体构建方法和与关键词相关的干扰图像,以更有效地利用模型漏洞。
本文提出了一种随机因果表征学习框架,以解决个性化医疗中的偏差-精度悖论,并证明了其在重症监护室(ICU)临床决策支持中提高了准确性和可解释性。
本文介绍了一种利用知识图谱路径作为中间监督来提升自进化搜索代理性能的方法。该方法通过将问题构建建立在关系上下文之上,并引入航点覆盖奖励(Waypoint Coverage Reward)以实现分级部分奖励,从而解决了搜索自博弈(Search Self-Play)中的瓶颈问题。
本文提出了一种用于大语言模型(LLM)搜索代理的两阶段推理时预算控制方法,利用信息价值(VOI)分数在多跳问答过程中优化工具调用和 Token 分配。
本文提出了显著性感知正则化量化校准(SARQC),这是一个统一的框架,通过添加正则化项以保持权重接近度,从而改善大语言模型(LLM)的训练后量化(PTQ),提升泛化能力和性能。