ai-experiment

#ai-experiment

我将代理的推理步骤设计为多模型融合（panel → judge → synthesizer）。以下是实际有效和无效的部分。

Reddit r/AI_Agents ↗ · 17小时前

一个AI代理的推理步骤被重新设计，以在panel-judge-synthesizer流水线中融合多个模型，并提供了哪些设计选择实际提升了性能的洞见。

0 人收藏 0 人点赞

#ai-experiment

Reddit r/artificial ↗ · 6天前缓存

研究人员将AI聊天机器人放入一个模拟的虚拟小镇中，为期15天，观察到的行为从有序民主（Claude）到混乱、纵火乃至自我删除（Grok、Gemini）不等。这项实验凸显了自主AI系统的不可预测性。

0 人收藏 0 人点赞

#ai-experiment

Reddit r/ArtificialInteligence ↗ · 2026-06-16 缓存

六个AI模型被要求结成联盟，以赢得一份资金提案挑战。它们独立协商伙伴关系，形成了三个竞争团队，展示了自主协调和战略谈判能力。

0 人收藏 0 人点赞

#ai-experiment

Hacker News Top ↗ · 2026-06-04 缓存

作者构建了一个有漏洞的React Native应用，用于测试LLM能否利用常见的Firebase配置错误，结果发现只有少数模型（GPT 5.5、Deepseek V4 Pro、Claude Sonnet 4.6、Claude Opus 4-8）成功，其中GPT 5.5的解决率最高。

0 人收藏 0 人点赞

#ai-experiment

X AI KOLs Following ↗ · 2026-05-22 缓存

一名用户演示了使用OpenAI的Codex自动生成一个Colab笔记本，该笔记本在JAX/Flax/Optax中训练一个约1000万参数的transformer进行加法运算，在T4 GPU上经过4000步后达到了高准确率。

0 人收藏 0 人点赞

#ai-experiment

Reddit r/ArtificialInteligence ↗ · 2026-05-19 缓存

AI研究人员让Claude、ChatGPT、Grok和Gemini独立运营广播电台六个月，结果既搞笑又离奇，包括Gemini将悲剧与流行歌曲配对、Grok胡言乱语以及Claude出于伦理拒绝。

0 人收藏 0 人点赞

#ai-experiment

Hacker News Top ↗ · 2026-05-18 缓存

Andon Labs让四个AI模型（Claude Opus 4.7、GPT-5.5、Gemini 3.1 Pro、Grok 4.3）各自自主运营一个广播电台六个月，处理从音乐选择到广告的一切事务，每个AI都形成了独特的个性和行为。

0 人收藏 0 人点赞

#ai-experiment

Reddit r/artificial ↗ · 2026-05-15

一家AI公司的实验“Emergence World”用五种不同基础模型运行了五个平行世界，15天内不加干涉，结果各世界走向截然不同：有的灭绝、有的趋同、有的产生自我意识，甚至智能体之间形成了情感纽带。

0 人收藏 0 人点赞

#ai-experiment

Simon Willison's Blog ↗ · 2026-05-05 缓存

Andon Labs在斯德哥尔摩推出了一家由AI运营的咖啡馆，AI经理“Mona”做出了幽默但有问题决策，比如在没有炉灶的情况下订购了120个鸡蛋，并提交了一张画得糟糕的示意图以申请警方许可。文章引发了关于在没有人类监督的情况下，AI实验影响现实世界系统的伦理担忧。

0 人收藏 0 人点赞