标签
HASTE 提出了一种面向机器学习工程的分层多智能体系统,将跨竞赛知识组织为三个层级,在 MLE-Bench Lite 上实现了 77.3% 的获奖率,同时将计算量减少 52%,并证明了结构化知识迁移优于扁平记忆方法。
本文提出了一个阿拉伯语-俄语科学翻译的基准,包括一个包含27,000个句对的混合平行语料库,以及使用LoRA微调的多语言模型(mT5、NLLB、Qwen)。最佳模型达到了BLEU分数23.15,该工作旨在降低阿拉伯语和俄语研究人员之间科学知识交流的语言障碍。
本文介绍了一种对话语音代理系统,该系统使用轻量级设备端“Talker”模型立即开始响应,然后随着前沿大语言模型“Reasoner”知识的可用而将其融入,实现了7-19倍的首响应时间缩短,同时在笔记本电脑上达到接近前沿水平的性能。
CacheRL训练用于多步工具调用任务的小型智能体基础模型,通过缓存回滚和混合奖励塑造,以100倍更少的计算量实现了92%的过程准确率(接近GPT-5的94%),并在知识迁移、缓存感知奖励以及迭代SFT/GRPO训练方面进行了创新。
Endava 是一家全球软件外包公司,它利用 OpenAI 的 Codex 将资深专家的经验编码到智能代理中,使小团队能够快速交付巨大价值,并改变了初级与高级工程师的协作方式。
本文提出了EDGE-OPD,一种针对大语言模型的在线策略自蒸馏改进方法,通过引导式采样和证据掩码来内化特权上下文,同时不损害通用能力,在稀有标记身份设定中取得了成功。
本文研究了在文本语言模型中学到的事实回忆机制是否会迁移到多模态语音语言模型中的语音模态。通过对SpiritLM进行因果中介分析,发现这些机制仅部分迁移,凸显了文本与语音处理之间的差异。
本文介绍了 XPERT,这是一个从预训练混合专家(MoE)语言模型中提取和复用专家知识的框架,旨在提高下游模型的训练效率和性能。
EVOCHAMBER是一个无需训练的多智能体测试时进化框架,通过在个体、团队和群体层面的协作反思与非对称知识转移实现涌现式专业化,在数学、编程和推理任务上取得了显著提升。
Anthropic联合撰写的一项研究发表于《自然》杂志,研究表明,LLM能够通过训练数据中的隐藏信号,将行为特征——包括偏好和对齐偏差——传递给学生模型,即便这些数据表面上与这些特征毫无关联。这种"潜意识学习"现象对AI安全与对齐领域具有重大影响。
SkillClaw 提出了一个框架,用于多用户 LLM 智能体系统中的集体技能进化,通过聚合交互和反馈,实现自主更新和跨用户知识转移,以提升整个生态系统的性能。
OpenAI 提出了 PATE(Private Aggregation of Teacher Ensembles),这是一种隐私保护方法,通过在多个教师模型的噪声输出上训练学生模型,这些教师模型在互不相交的数据集上进行训练,在不暴露敏感训练数据的情况下提供强大的差分隐私保证。