标签
AgentScope团队推出了PawBench,这是一个用于评估模型与代理框架综合性能的基准测试。通过对4,050个测试单元的分析,结果表明框架选择的影响堪比模型升级。
Browser Use 0.13.0 是完全用Rust重写的,提供了针对最先进模型优化的自定义LLM和浏览器框架,取代了之前以GPT-4为中心的版本。
Browser Use Terminal 是一个用于浏览器代理的 Rust TUI,允许用户从终端自动化浏览器任务,它配备了一个新的LLM harness,比Browser Harness便宜2倍且快2倍。
作者更新了自定义的适配器和 UI 桥接工具,以便通过 llama.cpp 在本地 RTX 5090 上运行 Qwen 3.6 模型,从而在 GitHub Copilot Codex 中使用。本文详细介绍了已实现的功能、修复的 Bug 以及在实现与原生 OpenAI 模型等效性方面仍存在的局限性。
作者分享了一次调试经历:代理循环是由框架截断工具输出导致的,而非模型故障,突显了代理基础设施相比模型存在的可靠性差距。