experimentation

标签

Cards List
#experimentation

本地大语言模型已不再民主...硬件门槛已失控。

Reddit r/LocalLLaMA · 昨天

作者认为,由于硬件成本高昂,运行本地大语言模型已变得难以企及,这与早期消费级GPU尚能胜任的情况形成鲜明对比,并对看似不再民主的访问权表达了不满。

0 人收藏 0 人点赞
#experimentation

AI是否变得太过"安全",以至于对创意工作实际上毫无用处?

Reddit r/artificial · 2026-05-31

文章认为,过于安全且受到审查的AI模型阻碍了创意探索,而开放模型则提供了更多的实验自由。

0 人收藏 0 人点赞
#experimentation

注意仿真与现实的差距,并像科学家一样思考

arXiv cs.AI · 2026-05-22 缓存

本文研究在序贯决策问题中,规划者何时以及如何用真实实验补充预训练模拟器,提出Fisher-SEP以最小化目标策略值的后验方差。

0 人收藏 0 人点赞
#experimentation

利用LLM评估进行更好的实验——是漏斗,而非分叉(阅读时间约6分钟)

TLDR AI · 2026-05-21 缓存

Spotify Engineering讨论了将LLM评估用作A/B实验前的漏斗,提高了命中率,并在评估与实验之间建立了反馈循环。

0 人收藏 0 人点赞
#experimentation

@andrewchen:体验本地AI模型的主要缺点在于你会买一块GPU,然后另一块,接着又一块……

X AI KOLs Following · 2026-05-19 缓存

Andrew Chen分享了他为本地AI实验购买多块GPU的经历,在5090 eGPU上以100 tok/s运行Qwen3.6 27B密集模型,并将其与Sonnet 4.6进行比较。

0 人收藏 0 人点赞
#experimentation

我花费了200美元的Claude积分,通过1000场战斗训练了一辆AI坦克

Reddit r/ArtificialInteligence · 2026-05-14

用户构建了AgentArena,这是一个浏览器游戏,Claude在其中编写坦克控制代码并通过战斗迭代,使得AI代理的改进过程变得可见。

0 人收藏 0 人点赞
#experimentation

构建了用于生产/开发环境中 AI 代理的运行时 A/B 测试层——寻找 5-10 个团队来“折腾”它

Reddit r/AI_Agents · 2026-05-13

作者介绍了 Syrin,这是一款用于 AI 代理的运行时 A/B 测试工具,允许团队针对提示词、模型和代理拓扑结构对实时流量进行受控实验。他们正在寻找 5-10 个工程团队在生产环境中测试该工具并提供反馈。

0 人收藏 0 人点赞
#experimentation

@AnthropicAI: AI模型还不是通用的对齐研究人员。在大多数对齐研究任务上,进展并不容易验证……

X AI KOLs · 2026-04-14 缓存

Anthropic报告称,Claude AI模型可以加速对齐研究的实验和探索,尽管他们承认当前的模型还不是通用的对齐研究人员,且对于模糊的研究任务,进展验证仍然具有挑战性。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈