标签
提出了一种名为“Machine Studying”的新型持续学习框架,其中AI系统能够自主从语料库中发展专业知识,并引入了StudyBench用于评估。
介绍“Machine Studying”作为一个问题,AI代理必须从语料库中自主发展专业知识,超越RAG或长上下文,并提出了StudyBench基准进行评估。
本文系统研究了推理时计算(token预算、上下文压缩、重复提交)如何影响前沿LLM在具有挑战性的基准上的性能,表明得分是协议相关的,并提倡评估应将能力表示为推理计算的函数。
TMAS 引入了一种多智能体框架,通过结构化协作与分层记忆系统扩展测试时计算,从而增强大语言模型的推理能力。该方法采用专用智能体、跨轨迹信息流以及混合奖励强化学习,有效提升了模型在复杂推理基准上的迭代扩展性能与稳定性。