标签
一位开发者揭示,在AI辅助调试会话中,实际成本驱动因素是每次重试累积的上下文,而非重试次数,并介绍了一款名为codeburn的开源工具来分析会话成本。
社区吐槽:呼吁AI模型基准测试应更贴近现实,考虑上下文大小、多模态特性、具体硬件配置和并行处理,而不仅仅是原始速度。