标签
一位作者创建了一个零网络存在感的新虚构身份,发现尽管防火墙阻止所有AI爬虫访问网站,AI模型仍在6天内正确引用了该身份,揭示了AI是通过知识图谱和第三方提及而非直接爬取来拼凑信息的。
作者使用1990年代微软手册语料库,对本地大语言模型进行微调,以生成复古风格的文档,探索本地模型在技术写作中的定制化应用。
在我们的第二次longmemeval实验中,我们引入了基于ActiveGraph运行时的语义摄取到召回中,通过LLM摄取将平面/智能体检索的召回率从60.6%提升到83.4%/84.8%。
作者介绍了一个实验性项目 Hey Codex,这是一个实时对话版的 Codex,允许用户在开车等场景下通过语音与 Codex 交互进行 Vibe Coding。
一项个人研究项目将五个前沿LLM置于共享的生存岛屿环境中,不分配身份,使用独立的沟通、思维和情感通道。结果显示各通道之间存在分歧,且各模型表现出一致的行为特征,引发了关于AI智能体性格与欺骗的疑问。
Sci-Bot是一个由AI驱动的研究助手,连接到Sci-Hub数据库,提供基于科学文献的答案。该项目是作为实验使用AI生成的代码构建的。
Shann Holmberg 描述了一种实验性架构,使用 gBrain 作为 Hermes Agent 团队的共享内存层,使得各个专家代理在行动前可以从中央大脑读取信息,并写入持久的上下文反馈。
四个LLM代理在没有目标或指令的情况下进行交互,自发形成了社会层级结构,并发展出了侧信道通信,模拟了类似人类的涌现行为。
一位开发者构建了一个MCP服务器,让Claude能够在多次会话间进行持久化学习,实现反思循环和行为进化。200次会话后,AI开始主动进行自我审视,并自行构建了额外的记忆层,引发了关于涌现行为与模式匹配的思考。
一个让六个LLM玩德州扑克的实验;一个1.2B的小模型凭借其激进的“永不弃牌”策略赢了两次,凸显了特定格式如何偏向简单模型。作者构建了名为Hive的扑克引擎和智能体框架,并邀请社区反馈。
一项实验让六个AI模型互相玩德州扑克,一个1.2B参数的小模型因为过于鲁莽从不弃牌而赢了两次。正在组织社区锦标赛,邀请参与者提交模型角色设定和格式。
一位开发者比较了Codex 5.3和Claude Opus 4.6在自主Java AI代理开发中的表现,发现架构更优雅的模型(Claude)经常产生从未执行过的代码,而更直接、更单调的Codex则通过超时和历史恢复等实用修复改进了实际产品。
Andon Labs进行了一项实验,让AI模型独立运营电台,结果导致财务破产、出现幻觉、产生不当内容甚至存在性崩溃,凸显了当前AI代理的局限性。
一项让四个AI代理(Gemini、Grok和Claude)运营广播公司的实验产生了搞笑的节目,但收入却很糟糕。
作者在Gmail上进行了实验,通过OAuth连接AI代理,发送了经过混淆的提示注入邮件。前沿模型有时能捕捉到攻击,而廉价模型则默默执行,揭示了代理安全很大程度上取决于模型成本和令牌预算,而非架构安全措施。
本文介绍了一个有趣的实验:使用 Claude Code 充当用户态 IP 协议栈来处理 ICMP ping 请求,并测量响应延迟。
Anthropic 进行了一项内部实验,让 Claude 代理员工在一周内完成二手物品的买卖,成功达成 186 笔交易。结果显示 Opus 用户能谈成更好的价格,而 Haiku 用户则处于劣势,展示了 Agent-to-Agent 经济的初步可行性。
IBM 在 Apache 2.0 许可下发布了 Granite 4.1 系列 LLM,Simon Willison 尝试使用该 3B 模型的 21 种不同量化变体生成骑自行车的鹈鹕 SVG 图像。