你是评估整个框架还是它的各个部分?

Reddit r/AI_Agents 新闻

摘要

这是一个讨论问题,关于是评估机器学习框架的整体,还是分别评估其各个组成部分。

暂无内容
查看原文

相似文章

停止在不公开执行框架的情况下比较LLM智能体

arXiv cs.AI

这篇立场论文认为,在长期跨度的LLM智能体任务中,执行框架(即围绕语言模型的上下文构建、工具交互、编排和验证的基础设施层)往往比模型本身更能决定性能,而当前的基准测试错误地将框架层面的提升归因于模型改进。它提出了一种框架感知的评估框架,包含披露标准和方差分解协议。