标签
本文研究了将LLM评委的温度设为0即可确保安全评估确定性的假设。研究发现,实际上许多评估框架未设置温度或随机种子,导致结果高度变异,且即使温度设为0,由于提供商层面的随机性和API更改,非确定性仍然存在。
一位开发者分享了在部署能够执行真实操作(如API调用和数据操作)的AI智能体时的担忧,并向社区询问他们的恐惧以及诸如护栏和人工审批等缓解策略。
一项基准测试显示,完成相同任务时,计算机操作代理的成本是结构化API调用的45倍,主要原因是截图和多步骤产生的高令牌消耗。作者认为,对于状态暴露的内部工具,基于API的代理效率更高,并推广了Reflex 0.9——该版本可从应用处理器自动生成API。
一位开发者讨论了以成本效益高的方式长期运行用于金融市场分析的 AI 智能体的策略,并分享了使用 Claude 和 Gemini API 的经验。