experimentation

#experimentation

@ArizePhoenix: 你可以直接使用PXI在Phoenix上运行实验！这里有一个测试系统提示与schema感知提示的实验…

X AI KOLs Following ↗ · 3天前缓存

Arize Phoenix演示了如何使用PXI运行一个实验，该实验使用程序化代码评估器比较系统提示与schema感知提示，从而避免了使用LLM评审员的需求。

0 人收藏 0 人点赞

#experimentation

我在一个月的假账目中植入了六个错误，看我的AI智能体能发现几个。它们发现了五个。漏掉的那个才是最可怕的部分。

Reddit r/AI_Agents ↗ · 2026-07-15

一项实验在虚假记账数据中植入了六个错误，AI智能体发现五个；特别值得注意的是，当数据不足时它们会拒绝猜测，凸显出不确定性意识比纯粹准确率更有价值。

0 人收藏 0 人点赞

#experimentation

用于运行关于使用工具的智能体的受控实验的开源实验室（改变工具名称/角色/历史，测量效果）

Reddit r/AI_Agents ↗ · 2026-07-02

一个开源实验室框架，用于运行关于使用工具的智能体的受控实验，允许改变工具名称、角色和历史来测量效果。

0 人收藏 0 人点赞

#experimentation

auto-psych: 利用智能体驱动的理论发现与实验自动化心智科学

arXiv cs.AI ↗ · 2026-06-26 缓存

auto-psych 是一个基于智能体的系统，它利用LLM智能体生成假设、设计实验并分析来自众包参与者的数据，从而自动化计算认知科学中的理论发现与实验。该系统在经典的心理学范式中展示出比人类推导的理论更快、更优的理论生成能力。

0 人收藏 0 人点赞

#experimentation

我用Claude建了一个250页的网站，并且记录了它每一次胡说八道的证据

Reddit r/artificial ↗ · 2026-06-24

作者记录了使用Claude构建一个250页网站的过程，并跟踪了AI模型每一次产生虚假或误导信息的情况。

0 人收藏 0 人点赞

#experimentation

本地大语言模型已不再民主...硬件门槛已失控。

Reddit r/LocalLLaMA ↗ · 2026-06-12

作者认为，由于硬件成本高昂，运行本地大语言模型已变得难以企及，这与早期消费级GPU尚能胜任的情况形成鲜明对比，并对看似不再民主的访问权表达了不满。

0 人收藏 0 人点赞

#experimentation

AI是否变得太过"安全"，以至于对创意工作实际上毫无用处？

Reddit r/artificial ↗ · 2026-05-31

文章认为，过于安全且受到审查的AI模型阻碍了创意探索，而开放模型则提供了更多的实验自由。

0 人收藏 0 人点赞

#experimentation

注意仿真与现实的差距，并像科学家一样思考

arXiv cs.AI ↗ · 2026-05-22 缓存

本文研究在序贯决策问题中，规划者何时以及如何用真实实验补充预训练模拟器，提出Fisher-SEP以最小化目标策略值的后验方差。

0 人收藏 0 人点赞

#experimentation

利用LLM评估进行更好的实验——是漏斗，而非分叉（阅读时间约6分钟）

TLDR AI ↗ · 2026-05-21 缓存

Spotify Engineering讨论了将LLM评估用作A/B实验前的漏斗，提高了命中率，并在评估与实验之间建立了反馈循环。

0 人收藏 0 人点赞

#experimentation

@andrewchen：体验本地AI模型的主要缺点在于你会买一块GPU，然后另一块，接着又一块……

X AI KOLs Following ↗ · 2026-05-19 缓存

Andrew Chen分享了他为本地AI实验购买多块GPU的经历，在5090 eGPU上以100 tok/s运行Qwen3.6 27B密集模型，并将其与Sonnet 4.6进行比较。

0 人收藏 0 人点赞

#experimentation

我花费了200美元的Claude积分，通过1000场战斗训练了一辆AI坦克

Reddit r/ArtificialInteligence ↗ · 2026-05-14

用户构建了AgentArena，这是一个浏览器游戏，Claude在其中编写坦克控制代码并通过战斗迭代，使得AI代理的改进过程变得可见。

0 人收藏 0 人点赞

#experimentation

构建了用于生产/开发环境中 AI 代理的运行时 A/B 测试层——寻找 5-10 个团队来“折腾”它

Reddit r/AI_Agents ↗ · 2026-05-13

作者介绍了 Syrin，这是一款用于 AI 代理的运行时 A/B 测试工具，允许团队针对提示词、模型和代理拓扑结构对实时流量进行受控实验。他们正在寻找 5-10 个工程团队在生产环境中测试该工具并提供反馈。

0 人收藏 0 人点赞

#experimentation

@AnthropicAI: AI模型还不是通用的对齐研究人员。在大多数对齐研究任务上，进展并不容易验证……

X AI KOLs ↗ · 2026-04-14 缓存

Anthropic报告称，Claude AI模型可以加速对齐研究的实验和探索，尽管他们承认当前的模型还不是通用的对齐研究人员，且对于模糊的研究任务，进展验证仍然具有挑战性。

0 人收藏 0 人点赞

experimentation

提交意见反馈