kaist

#kaist

面向大型音频语言模型的连续音频思考

arXiv cs.AI ↗ · 2026-06-18 缓存

该论文引入了连续音频思考（CoAT）框架，为大型音频语言模型配备了一个连续的潜在工作空间，用于在生成文本响应之前组织声学信息，从而在音频推理、理解和转录任务中提升性能，且不增加额外的解码成本。

0 人收藏 0 人点赞

#kaist

arXiv cs.AI ↗ · 2026-05-12 缓存

AgentPSO 是一种受粒子群算法启发的框架，通过将智能体视为以自然语言技能为状态的粒子，来进化多智能体推理能力。它在无需更新基础语言模型参数的情况下，提升了在推理基准测试上的性能。

0 人收藏 0 人点赞

#kaist

arXiv cs.CL ↗ · 2026-05-12 缓存

本文介绍了一种名为“叙事景观”的定量框架和可视化工具，用于映射并比较前沿大语言模型的叙事倾向及其稳定性。

0 人收藏 0 人点赞

#kaist

arXiv cs.LG ↗ · 2026-05-08 缓存

本文提出了 LMO-IGT，这是一类新的随机优化方法，它利用隐式梯度传输来加速收敛，同时保持每次迭代仅计算一次梯度的结构。文中引入了一个统一的理论框架，并展示了相较于 Muon 等现有基于 LMO 的优化器，该方法具有更优的性能。

0 人收藏 0 人点赞