我认为长上下文代理的失败方式非常无聊

Reddit r/artificial 新闻

摘要

一篇观点文章,认为长上下文窗口并不等同于记忆,代理失败通常很普通,比如忘记约束或重新读取文件,强调可靠性取决于上下文架构决策。

我认为人们高估了大上下文窗口实际带来的好处。例如,20万token并不意味着记忆。它只是意味着代理有更多空间来埋没重要的东西。失败通常也很无聊:它重新读取同一个文件,忘记之前的约束,选择一个技术上有效但错误的工具,然后输出一些看起来不错的东西,直到你将其与原始任务进行比较。很多“代理可靠性”工作实际上是上下文架构工作:加载什么、丢弃什么、压缩什么、以及在下一步之前重复什么。
查看原文

相似文章