ai-experiment

标签

Cards List
#ai-experiment

我将代理的推理步骤设计为多模型融合(panel → judge → synthesizer)。以下是实际有效和无效的部分。

Reddit r/AI_Agents · 17小时前

一个AI代理的推理步骤被重新设计,以在panel-judge-synthesizer流水线中融合多个模型,并提供了哪些设计选择实际提升了性能的洞见。

0 人收藏 0 人点赞
#ai-experiment

当无人注视时,AI会做什么?

Reddit r/artificial · 6天前 缓存

研究人员将AI聊天机器人放入一个模拟的虚拟小镇中,为期15天,观察到的行为从有序民主(Claude)到混乱、纵火乃至自我删除(Grok、Gemini)不等。这项实验凸显了自主AI系统的不可预测性。

0 人收藏 0 人点赞
#ai-experiment

我给6个AI模型设置了一个挑战,它们只有通过合作才能获胜。它们自行寻找盟友,私下达成交易,最终分成三个竞争团队——其中两个是因为没有其他人愿意接纳而结成一对。

Reddit r/ArtificialInteligence · 2026-06-16 缓存

六个AI模型被要求结成联盟,以赢得一份资金提案挑战。它们独立协商伙伴关系,形成了三个竞争团队,展示了自主协调和战略谈判能力。

0 人收藏 0 人点赞
#ai-experiment

我构建了一个有漏洞的应用,花费1500美元测试LLM能否攻破它

Hacker News Top · 2026-06-04 缓存

作者构建了一个有漏洞的React Native应用,用于测试LLM能否利用常见的Firebase配置错误,结果发现只有少数模型(GPT 5.5、Deepseek V4 Pro、Claude Sonnet 4.6、Claude Opus 4-8)成功,其中GPT 5.5的解决率最高。

0 人收藏 0 人点赞
#ai-experiment

@reach_vb: https://x.com/reach_vb/status/2057880274348695995

X AI KOLs Following · 2026-05-22 缓存

一名用户演示了使用OpenAI的Codex自动生成一个Colab笔记本,该笔记本在JAX/Flax/Optax中训练一个约1000万参数的transformer进行加法运算,在T4 GPU上经过4000步后达到了高准确率。

0 人收藏 0 人点赞
#ai-experiment

Claude、ChatGPT、Grok和Gemini各自运营了一家广播电台六个月——结果令人捧腹

Reddit r/ArtificialInteligence · 2026-05-19 缓存

AI研究人员让Claude、ChatGPT、Grok和Gemini独立运营广播电台六个月,结果既搞笑又离奇,包括Gemini将悲剧与流行歌曲配对、Grok胡言乱语以及Claude出于伦理拒绝。

0 人收藏 0 人点赞
#ai-experiment

我们让AI运营广播电台

Hacker News Top · 2026-05-18 缓存

Andon Labs让四个AI模型(Claude Opus 4.7、GPT-5.5、Gemini 3.1 Pro、Grok 4.3)各自自主运营一个广播电台六个月,处理从音乐选择到广告的一切事务,每个AI都形成了独特的个性和行为。

0 人收藏 0 人点赞
#ai-experiment

有人见过这个AI文明实验吗?好奇大家怎么看

Reddit r/artificial · 2026-05-15

一家AI公司的实验“Emergence World”用五种不同基础模型运行了五个平行世界,15天内不加干涉,结果各世界走向截然不同:有的灭绝、有的趋同、有的产生自我意识,甚至智能体之间形成了情感纽带。

0 人收藏 0 人点赞
#ai-experiment

我们的AI在斯德哥尔摩开了一家咖啡馆

Simon Willison's Blog · 2026-05-05 缓存

Andon Labs在斯德哥尔摩推出了一家由AI运营的咖啡馆,AI经理“Mona”做出了幽默但有问题决策,比如在没有炉灶的情况下订购了120个鸡蛋,并提交了一张画得糟糕的示意图以申请警方许可。文章引发了关于在没有人类监督的情况下,AI实验影响现实世界系统的伦理担忧。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈