标签
该论文引入了连续音频思考(CoAT)框架,为大型音频语言模型配备了一个连续的潜在工作空间,用于在生成文本响应之前组织声学信息,从而在音频推理、理解和转录任务中提升性能,且不增加额外的解码成本。
AgentPSO 是一种受粒子群算法启发的框架,通过将智能体视为以自然语言技能为状态的粒子,来进化多智能体推理能力。它在无需更新基础语言模型参数的情况下,提升了在推理基准测试上的性能。
本文提出了 LMO-IGT,这是一类新的随机优化方法,它利用隐式梯度传输来加速收敛,同时保持每次迭代仅计算一次梯度的结构。文中引入了一个统一的理论框架,并展示了相较于 Muon 等现有基于 LMO 的优化器,该方法具有更优的性能。