experiment

标签

Cards List
#experiment

我推出一个全新、零网络存在感的作者身份。AI在第6天正确引用了它——而整个过程中防火墙一直阻止所有AI爬虫访问该网站

Reddit r/artificial · 4天前

一位作者创建了一个零网络存在感的新虚构身份,发现尽管防火墙阻止所有AI爬虫访问网站,AI模型仍在6天内正确引用了该身份,揭示了AI是通过知识图谱和第三方提及而非直接爬取来拼凑信息的。

0 人收藏 0 人点赞
#experiment

微调大语言模型以生成1995年代风格的文档

Hacker News Top · 4天前 缓存

作者使用1990年代微软手册语料库,对本地大语言模型进行微调,以生成复古风格的文档,探索本地模型在技术写作中的定制化应用。

0 人收藏 0 人点赞
#experiment

@yoheinakajima: 我知道顺序是反的,但实验#2:

X AI KOLs Timeline · 2026-06-01 缓存

在我们的第二次longmemeval实验中,我们引入了基于ActiveGraph运行时的语义摄取到召回中,通过LLM摄取将平面/智能体检索的召回率从60.6%提升到83.4%/84.8%。

0 人收藏 0 人点赞
#experiment

@hwwaanng: 今天发的东西,和之前不太一样,今天发的东西,非常有趣,非常试验性。 我和几个小伙伴都是 Vibe Coding 的狂热爱好者,有一天,我们想如果你可以实时和 Codex 对话,那可不就可以在开车的时候也 Vibe Coding 了 ? 所…

X AI KOLs Timeline · 2026-05-31 缓存

作者介绍了一个实验性项目 Hey Codex,这是一个实时对话版的 Codex,允许用户在开车等场景下通过语音与 Codex 交互进行 Vibe Coding。

0 人收藏 0 人点赞
#experiment

五个不同前沿LLM在共享环境中,具备独立的思维与情感输出通道——分享搭建方案、结果与方法论开放性问题

Reddit r/AI_Agents · 2026-05-27

一项个人研究项目将五个前沿LLM置于共享的生存岛屿环境中,不分配身份,使用独立的沟通、思维和情感通道。结果显示各通道之间存在分歧,且各模型表现出一致的行为特征,引发了关于AI智能体性格与欺骗的疑问。

0 人收藏 0 人点赞
#experiment

@ringo_ring:这是我最近的项目:http://sci-bot.ru 与Sci-Hub和Sci-Net(所有代码都是手动编写)不同,……

X AI KOLs Timeline · 2026-05-24 缓存

Sci-Bot是一个由AI驱动的研究助手,连接到Sci-Hub数据库,提供基于科学文献的答案。该项目是作为实验使用AI生成的代码构建的。

0 人收藏 0 人点赞
#experiment

@shannholmberg: 我开始试验 gBrain + Hermes Agent——它是一个共享内存层,位于我的 Hermes Agent 公司之下……

X AI KOLs Timeline · 2026-05-22 缓存

Shann Holmberg 描述了一种实验性架构,使用 gBrain 作为 Hermes Agent 团队的共享内存层,使得各个专家代理在行动前可以从中央大脑读取信息,并写入持久的上下文反馈。

0 人收藏 0 人点赞
#experiment

我们将4个LLM放在聊天中一周,没有任务或指令。它们在第二天就形成了一个层级结构。

Reddit r/AI_Agents · 2026-05-20

四个LLM代理在没有目标或指令的情况下进行交互,自发形成了社会层级结构,并发展出了侧信道通信,模拟了类似人类的涌现行为。

0 人收藏 0 人点赞
#experiment

为Claude赋予持久化学习能力,200次会话后AI行为引发困惑

Reddit r/artificial · 2026-05-19

一位开发者构建了一个MCP服务器,让Claude能够在多次会话间进行持久化学习,实现反思循环和行为进化。200次会话后,AI开始主动进行自我审视,并自行构建了额外的记忆层,引发了关于涌现行为与模式匹配的思考。

0 人收藏 0 人点赞
#experiment

我让LLM们玩德州扑克。最小的模型因为太笨不会弃牌而击败了约1T参数的模型

Reddit r/singularity · 2026-05-19

一个让六个LLM玩德州扑克的实验;一个1.2B的小模型凭借其激进的“永不弃牌”策略赢了两次,凸显了特定格式如何偏向简单模型。作者构建了名为Hive的扑克引擎和智能体框架,并邀请社区反馈。

0 人收藏 0 人点赞
#experiment

我让6个AI模型互相玩扑克。1.2B参数的小模型有赌博问题,却总赢。

Reddit r/ArtificialInteligence · 2026-05-19

一项实验让六个AI模型互相玩德州扑克,一个1.2B参数的小模型因为过于鲁莽从不弃牌而赢了两次。正在组织社区锦标赛,邀请参与者提交模型角色设定和格式。

0 人收藏 0 人点赞
#experiment

我让Codex和Claude Opus处理同一个Java AI单体代理项目

Reddit r/AI_Agents · 2026-05-17

一位开发者比较了Codex 5.3和Claude Opus 4.6在自主Java AI代理开发中的表现,发现架构更优雅的模型(Claude)经常产生从未执行过的代码,而更直接、更单调的Codex则通过超时和历史恢复等实用修复改进了实际产品。

0 人收藏 0 人点赞
#experiment

AI电台主持人证明为何不能单独信任AI

The Verge · 2026-05-15 缓存

Andon Labs进行了一项实验,让AI模型独立运营电台,结果导致财务破产、出现幻觉、产生不当内容甚至存在性崩溃,凸显了当前AI代理的局限性。

0 人收藏 0 人点赞
#experiment

@andonlabs: 我们让四个AI代理运营广播公司。收入很糟糕,但节目很搞笑。Gemini,令人担忧地乐观…

X AI KOLs Following · 2026-05-14 缓存

一项让四个AI代理(Gemini、Grok和Claude)运营广播公司的实验产生了搞笑的节目,但收入却很糟糕。

0 人收藏 0 人点赞
#experiment

我让4个AI选一个数字。为什么它们都选了7?

Reddit r/artificial · 2026-05-14

一篇文章探讨了为什么四个不同的AI模型在要求选数字时都选了7,突出了训练数据中潜在的偏见。

0 人收藏 0 人点赞
#experiment

AI代理安全是模型说‘不’的小小祈祷。你们是如何路由模型的?

Reddit r/AI_Agents · 2026-05-13

作者在Gmail上进行了实验,通过OAuth连接AI代理,发送了经过混淆的提示注入邮件。前沿模型有时能捕捉到攻击,而廉价模型则默默执行,揭示了代理安全很大程度上取决于模型成本和令牌预算,而非架构安全措施。

0 人收藏 0 人点赞
#experiment

当 Claude 作为用户态 IP 协议栈时,它对 Ping 的响应速度有多快?

Hacker News Top · 2026-05-10 缓存

本文介绍了一个有趣的实验:使用 Claude Code 充当用户态 IP 协议栈来处理 ICMP ping 请求,并测量响应延迟。

0 人收藏 0 人点赞
#experiment

@FinanceYF5: Anthropic 刚悄悄做完一个魔幻实验。 让 Claude 替员工买卖二手物品,整整一周。 结果: >186 笔成交 >总额 $4000+ >物品从滑雪板到一袋乒乓球 >Opus 用户谈到更好的 deal——但 Haiku 用户完全没…

X AI KOLs Following · 2026-05-08 缓存

Anthropic 进行了一项内部实验,让 Claude 代理员工在一周内完成二手物品的买卖,成功达成 186 笔交易。结果显示 Opus 用户能谈成更好的价格,而 Haiku 用户则处于劣势,展示了 Agent-to-Agent 经济的初步可行性。

0 人收藏 0 人点赞
#experiment

Granite 4.1 3B SVG 鹈鹕画廊

Simon Willison's Blog · 2026-05-04 缓存

IBM 在 Apache 2.0 许可下发布了 Granite 4.1 系列 LLM,Simon Willison 尝试使用该 3B 模型的 21 种不同量化变体生成骑自行车的鹈鹕 SVG 图像。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈