标签
作者认为,由于硬件成本高昂,运行本地大语言模型已变得难以企及,这与早期消费级GPU尚能胜任的情况形成鲜明对比,并对看似不再民主的访问权表达了不满。
文章认为,过于安全且受到审查的AI模型阻碍了创意探索,而开放模型则提供了更多的实验自由。
本文研究在序贯决策问题中,规划者何时以及如何用真实实验补充预训练模拟器,提出Fisher-SEP以最小化目标策略值的后验方差。
Spotify Engineering讨论了将LLM评估用作A/B实验前的漏斗,提高了命中率,并在评估与实验之间建立了反馈循环。
Andrew Chen分享了他为本地AI实验购买多块GPU的经历,在5090 eGPU上以100 tok/s运行Qwen3.6 27B密集模型,并将其与Sonnet 4.6进行比较。
用户构建了AgentArena,这是一个浏览器游戏,Claude在其中编写坦克控制代码并通过战斗迭代,使得AI代理的改进过程变得可见。
作者介绍了 Syrin,这是一款用于 AI 代理的运行时 A/B 测试工具,允许团队针对提示词、模型和代理拓扑结构对实时流量进行受控实验。他们正在寻找 5-10 个工程团队在生产环境中测试该工具并提供反馈。
Anthropic报告称,Claude AI模型可以加速对齐研究的实验和探索,尽管他们承认当前的模型还不是通用的对齐研究人员,且对于模糊的研究任务,进展验证仍然具有挑战性。