论文

Cards List

@rwayne: 昨天 arXiv 上挂了一篇有意思的论文,把认知科学里「意识」的机制直接翻译成了长上下文工程。 论文作者 Mo Yu / Jie Zhou 等 6 位研究员提出,认知科学有个老观点叫 global ignition,人意识到一件事时,分布…

X AI KOLs Timeline · 昨天

研究者提出将认知科学中的"global ignition"意识机制应用于长上下文工程,提出MiA-Signature方法使用子模选择高层概念覆盖激活空间,应用于RAG和agentic系统后获得一致性能提升。

0 人收藏 0 人点赞

新一代AI模型与最具影响力的研究论文之一。

Reddit r/LocalLLaMA · 昨天

Token AI发布了一篇研究论文,介绍STAM——一种新型自适应动量优化器,旨在提升训练稳定性并降低内存占用,相比AdamW等标准优化器效果更优。

0 人收藏 0 人点赞

@FinanceYF5: 神经网络会说英文,但它们用“形状”思考 1/ 神经网络不是按词思考 它们表面上会说英文,内部却可能是在几何空间里组织信息:曲线、环、曲面、流形。 理解 neural geometry,可能是理解、调试和控制模型的关键。

X AI KOLs Following · 昨天 缓存

神经网络表面会说英文,但内部在几何空间里组织信息(曲线、环、曲面、流形),理解“神经几何”可能是理解、调试和控制模型的关键。

0 人收藏 0 人点赞

重新审视后量子WireGuard

Lobsters Hottest · 昨天 缓存

本文介绍了一篇密码学研究论文,重新审视后量子WireGuard,探讨如何保护WireGuard VPN协议免受未来量子计算威胁。

0 人收藏 0 人点赞

@jiqizhixin:太棒了!关于推理型LLM的强化学习现状 https://aweers.de/blog/2026/rl-for-llms/…

X AI KOLs Timeline · 昨天 缓存

一篇全面回顾推理型LLM强化学习现状的博文,涵盖从REINFORCE、PPO到GRPO乃至更多方法,并与InstructGPT、DeepSeek-R1等关键模型相联系。

0 人收藏 0 人点赞

评估安全关键型ATR系统中的可解释性:事后方法的局限性与迈向稳健型XAI的路径

arXiv cs.AI · 昨天 缓存

本文评估了安全关键型自动目标识别(ATR)系统中的可解释性方法,突出了显著性图和注意力图等事后技术的局限性。提出了一种分类法和评估框架,以解决虚假解释和不稳定性等问题,倡导采用更稳健、基于因果关系的XAI方法。

0 人收藏 0 人点赞

通过混合反馈在广义线性带臂中进行最佳臂识别

arXiv cs.AI · 昨天 缓存

本文介绍了一种用于广义线性带臂中最佳臂识别的混合 Track-and-Stop 算法,该算法统一了绝对反馈和相对反馈。作者提出了一种基于似然比的置信序列以自适应分配查询,并证明了该方法在样本效率上优于基线方法。

0 人收藏 0 人点赞

HyperLens:利用细粒度置信度轨迹量化大型语言模型的认知努力

arXiv cs.AI · 昨天 缓存

本文介绍了 HyperLens,一种高分辨率探针,可通过追踪层间的细粒度置信度轨迹来量化大型语言模型(LLMs)的认知努力。研究表明,复杂任务需要更高的认知努力,并展示了监督微调(SFT)如何降低这种努力,从而可能导致性能下降。

0 人收藏 0 人点赞

ReFlect:用于复杂长周期大语言模型推理的有效包装系统

arXiv cs.AI · 昨天 缓存

本文介绍了 ReFlect,这是一种无需训练的包装系统,通过为大语言模型包裹确定性的错误检测与恢复逻辑,来提升其在复杂、长周期推理任务上的性能。

0 人收藏 0 人点赞

SDFlow:用于时间序列生成的相似性驱动流匹配

arXiv cs.AI · 昨天 缓存

本文介绍了 SDFlow,这是一种用于时间序列生成的相似性驱动流匹配框架,旨在解决自回归模型中的暴露偏差问题。通过在冻结的 VQ 潜在空间中进行低秩流形分解,SDFlow 实现了最先进的性能并显著提升了推理速度。

0 人收藏 0 人点赞

基于优化深度学习与 LLM 驱动智能 AI 在计算受限系统上进行膝关节骨关节炎严重程度分级

arXiv cs.AI · 昨天 缓存

本文介绍了一种用于分级膝关节骨关节炎严重程度的自动化诊断系统,该系统使用通过 TensorFlow Lite 部署在边缘设备上的优化 ResNet-18 模型。它集成了使用 Gemini 2.0 Flash 的大型语言模型(LLM)接口,在提供结构化解释性发现的同时,保持了在资源受限环境下的离线能力。

0 人收藏 0 人点赞

SkillRet:面向 LLM 智能体技能检索的大规模基准

arXiv cs.AI · 昨天 缓存

本文提出了 SkillRet,这是一个用于评估 LLM 智能体技能检索的大规模基准,旨在解决从大型技能库中选择相关技能的挑战。该基准提供了包含超过 17,000 项技能的 dataset,并证明针对特定任务的微调能显著提升检索性能。

0 人收藏 0 人点赞

像专家一样检测时间序列异常:一种具有专用分析器的多智能体 LLM 框架

arXiv cs.AI · 昨天 缓存

本文介绍了 SAGE,这是一种用于时间序列异常检测的多智能体 LLM 框架,它利用专用分析器来提高可解释性和可靠性。该框架在三个基准测试中表现出优于基线模型的性能,并通过结构化证据整合增强了诊断报告的质量。

0 人收藏 0 人点赞

多并非总是更好:大语言模型智能体搭建中的跨组件干扰

arXiv cs.AI · 昨天 缓存

本文挑战了“向大语言模型智能体添加更多搭建组件总能提升性能”的假设,通过系统实验证明,跨组件干扰往往会导致性能下降。研究发现,在各种模型规模下,更简单、针对特定任务的组件子集通常优于配备齐全的“全能型”智能体。

0 人收藏 0 人点赞

可解码但无法通过固定残差流线性转向纠正:来自医疗大语言模型失效模式的证据

arXiv cs.AI · 昨天 缓存

本文研究了大语言模型隐藏状态中线性可解码的失效信号是否可以通过残差流转向进行纠正。研究发现,虽然“过度思考”失效模式是可解码的,但由于其与任务关键计算的表示纠缠,固定的线性转向未能纠正这些失效,尽管探测探针有效地支持了选择性拒绝回答。

0 人收藏 0 人点赞

隐藏、重建与越狱:利用多模态大语言模型中的重建-隐藏权衡

arXiv cs.AI · 昨天 缓存

本文分析了针对多模态大语言模型(MLLMs)的意图混淆越狱攻击中存在的重建-隐藏权衡问题。提出了感知隐藏的变体构建方法和与关键词相关的干扰图像,以更有效地利用模型漏洞。

0 人收藏 0 人点赞

通过随机因果表征学习解决个性化医疗中的偏差-精度悖论

arXiv cs.AI · 昨天 缓存

本文提出了一种随机因果表征学习框架,以解决个性化医疗中的偏差-精度悖论,并证明了其在重症监护室(ICU)临床决策支持中提高了准确性和可解释性。

0 人收藏 0 人点赞

利用知识图谱路径作为自进化搜索代理的中间监督

arXiv cs.AI · 昨天 缓存

本文介绍了一种利用知识图谱路径作为中间监督来提升自进化搜索代理性能的方法。该方法通过将问题构建建立在关系上下文之上,并引入航点覆盖奖励(Waypoint Coverage Reward)以实现分级部分奖励,从而解决了搜索自博弈(Search Self-Play)中的瓶颈问题。

0 人收藏 0 人点赞

大语言模型搜索代理的推理时预算控制

arXiv cs.AI · 昨天 缓存

本文提出了一种用于大语言模型(LLM)搜索代理的两阶段推理时预算控制方法,利用信息价值(VOI)分数在多跳问答过程中优化工具调用和 Token 分配。

0 人收藏 0 人点赞

面向大语言模型的显著性感知正则化量化校准

arXiv cs.AI · 昨天 缓存

本文提出了显著性感知正则化量化校准(SARQC),这是一个统一的框架,通过添加正则化项以保持权重接近度,从而改善大语言模型(LLM)的训练后量化(PTQ),提升泛化能力和性能。

0 人收藏 0 人点赞
← Previous
Next →
← 返回首页

提交意见反馈