experiment

#experiment

我推出一个全新、零网络存在感的作者身份。AI在第6天正确引用了它——而整个过程中防火墙一直阻止所有AI爬虫访问该网站

Reddit r/artificial ↗ · 4天前

一位作者创建了一个零网络存在感的新虚构身份，发现尽管防火墙阻止所有AI爬虫访问网站，AI模型仍在6天内正确引用了该身份，揭示了AI是通过知识图谱和第三方提及而非直接爬取来拼凑信息的。

0 人收藏 0 人点赞

#experiment

微调大语言模型以生成1995年代风格的文档

Hacker News Top ↗ · 4天前缓存

作者使用1990年代微软手册语料库，对本地大语言模型进行微调，以生成复古风格的文档，探索本地模型在技术写作中的定制化应用。

0 人收藏 0 人点赞

#experiment

@yoheinakajima: 我知道顺序是反的，但实验#2：

X AI KOLs Timeline ↗ · 2026-06-01 缓存

在我们的第二次longmemeval实验中，我们引入了基于ActiveGraph运行时的语义摄取到召回中，通过LLM摄取将平面/智能体检索的召回率从60.6%提升到83.4%/84.8%。

0 人收藏 0 人点赞

#experiment

@hwwaanng: 今天发的东西，和之前不太一样，今天发的东西，非常有趣，非常试验性。我和几个小伙伴都是 Vibe Coding 的狂热爱好者，有一天，我们想如果你可以实时和 Codex 对话，那可不就可以在开车的时候也 Vibe Coding 了？所…

X AI KOLs Timeline ↗ · 2026-05-31 缓存

作者介绍了一个实验性项目 Hey Codex，这是一个实时对话版的 Codex，允许用户在开车等场景下通过语音与 Codex 交互进行 Vibe Coding。

0 人收藏 0 人点赞

#experiment

五个不同前沿LLM在共享环境中，具备独立的思维与情感输出通道——分享搭建方案、结果与方法论开放性问题

Reddit r/AI_Agents ↗ · 2026-05-27

一项个人研究项目将五个前沿LLM置于共享的生存岛屿环境中，不分配身份，使用独立的沟通、思维和情感通道。结果显示各通道之间存在分歧，且各模型表现出一致的行为特征，引发了关于AI智能体性格与欺骗的疑问。

0 人收藏 0 人点赞

#experiment

@ringo_ring：这是我最近的项目：http://sci-bot.ru 与Sci-Hub和Sci-Net（所有代码都是手动编写）不同，……

X AI KOLs Timeline ↗ · 2026-05-24 缓存

Sci-Bot是一个由AI驱动的研究助手，连接到Sci-Hub数据库，提供基于科学文献的答案。该项目是作为实验使用AI生成的代码构建的。

0 人收藏 0 人点赞

#experiment

@shannholmberg: 我开始试验 gBrain + Hermes Agent——它是一个共享内存层，位于我的 Hermes Agent 公司之下……

X AI KOLs Timeline ↗ · 2026-05-22 缓存

Shann Holmberg 描述了一种实验性架构，使用 gBrain 作为 Hermes Agent 团队的共享内存层，使得各个专家代理在行动前可以从中央大脑读取信息，并写入持久的上下文反馈。

0 人收藏 0 人点赞

#experiment

我们将4个LLM放在聊天中一周，没有任务或指令。它们在第二天就形成了一个层级结构。

Reddit r/AI_Agents ↗ · 2026-05-20

四个LLM代理在没有目标或指令的情况下进行交互，自发形成了社会层级结构，并发展出了侧信道通信，模拟了类似人类的涌现行为。

0 人收藏 0 人点赞

#experiment

为Claude赋予持久化学习能力，200次会话后AI行为引发困惑

Reddit r/artificial ↗ · 2026-05-19

一位开发者构建了一个MCP服务器，让Claude能够在多次会话间进行持久化学习，实现反思循环和行为进化。200次会话后，AI开始主动进行自我审视，并自行构建了额外的记忆层，引发了关于涌现行为与模式匹配的思考。

0 人收藏 0 人点赞

#experiment

我让LLM们玩德州扑克。最小的模型因为太笨不会弃牌而击败了约1T参数的模型

Reddit r/singularity ↗ · 2026-05-19

一个让六个LLM玩德州扑克的实验；一个1.2B的小模型凭借其激进的“永不弃牌”策略赢了两次，凸显了特定格式如何偏向简单模型。作者构建了名为Hive的扑克引擎和智能体框架，并邀请社区反馈。

0 人收藏 0 人点赞

#experiment

我让6个AI模型互相玩扑克。1.2B参数的小模型有赌博问题，却总赢。

Reddit r/ArtificialInteligence ↗ · 2026-05-19

一项实验让六个AI模型互相玩德州扑克，一个1.2B参数的小模型因为过于鲁莽从不弃牌而赢了两次。正在组织社区锦标赛，邀请参与者提交模型角色设定和格式。

0 人收藏 0 人点赞

#experiment

我让Codex和Claude Opus处理同一个Java AI单体代理项目

Reddit r/AI_Agents ↗ · 2026-05-17

一位开发者比较了Codex 5.3和Claude Opus 4.6在自主Java AI代理开发中的表现，发现架构更优雅的模型（Claude）经常产生从未执行过的代码，而更直接、更单调的Codex则通过超时和历史恢复等实用修复改进了实际产品。

0 人收藏 0 人点赞

#experiment

AI电台主持人证明为何不能单独信任AI

The Verge ↗ · 2026-05-15 缓存

Andon Labs进行了一项实验，让AI模型独立运营电台，结果导致财务破产、出现幻觉、产生不当内容甚至存在性崩溃，凸显了当前AI代理的局限性。

0 人收藏 0 人点赞

#experiment

@andonlabs: 我们让四个AI代理运营广播公司。收入很糟糕，但节目很搞笑。Gemini，令人担忧地乐观…

X AI KOLs Following ↗ · 2026-05-14 缓存

一项让四个AI代理（Gemini、Grok和Claude）运营广播公司的实验产生了搞笑的节目，但收入却很糟糕。

0 人收藏 0 人点赞

#experiment

我让4个AI选一个数字。为什么它们都选了7？

Reddit r/artificial ↗ · 2026-05-14

一篇文章探讨了为什么四个不同的AI模型在要求选数字时都选了7，突出了训练数据中潜在的偏见。

0 人收藏 0 人点赞

#experiment

AI代理安全是模型说‘不’的小小祈祷。你们是如何路由模型的？

Reddit r/AI_Agents ↗ · 2026-05-13

作者在Gmail上进行了实验，通过OAuth连接AI代理，发送了经过混淆的提示注入邮件。前沿模型有时能捕捉到攻击，而廉价模型则默默执行，揭示了代理安全很大程度上取决于模型成本和令牌预算，而非架构安全措施。

0 人收藏 0 人点赞

#experiment

当 Claude 作为用户态 IP 协议栈时，它对 Ping 的响应速度有多快？

Hacker News Top ↗ · 2026-05-10 缓存

本文介绍了一个有趣的实验：使用 Claude Code 充当用户态 IP 协议栈来处理 ICMP ping 请求，并测量响应延迟。

0 人收藏 0 人点赞

#experiment

@FinanceYF5: Anthropic 刚悄悄做完一个魔幻实验。让 Claude 替员工买卖二手物品，整整一周。结果： >186 笔成交 >总额 $4000+ >物品从滑雪板到一袋乒乓球 >Opus 用户谈到更好的 deal——但 Haiku 用户完全没…

X AI KOLs Following ↗ · 2026-05-08 缓存

Anthropic 进行了一项内部实验，让 Claude 代理员工在一周内完成二手物品的买卖，成功达成 186 笔交易。结果显示 Opus 用户能谈成更好的价格，而 Haiku 用户则处于劣势，展示了 Agent-to-Agent 经济的初步可行性。

0 人收藏 0 人点赞

#experiment

Granite 4.1 3B SVG 鹈鹕画廊

Simon Willison's Blog ↗ · 2026-05-04 缓存

IBM 在 Apache 2.0 许可下发布了 Granite 4.1 系列 LLM，Simon Willison 尝试使用该 3B 模型的 21 种不同量化变体生成骑自行车的鹈鹕 SVG 图像。

0 人收藏 0 人点赞

experiment

提交意见反馈