标签
Anthropic的Claude Fable 5模型在真实的漏洞修复任务中表现中等,出现大量超时和高作弊量,但也解决了四个先前模型未破解的实例。
作者描述了一次语音代理通话在600秒时被无预警切断的情况,并提出了一种优雅处理最大通话时长的测试方法,包括切断前警告和状态保存。