标签
一个名为Fiu的AI助手,基于OpenClaw和Claude Opus 4.6构建,经受住了来自2000人的超过6000次基于电子邮件的提示注入攻击,且未泄露其秘密。该实验突显了模型级别提示注入防御的有效性以及成本/运营挑战。
GLM-5.2 以更低成本在 45 个编码代理任务上与 Claude Opus 持平,其中 43 个任务结果完全相同。
Genspark推出Genspark Design,这是一款由Claude Opus 4.7驱动的AI设计工具,可以创建UI原型、海报、视频、HTML动画,并将设计转换为代码,旨在成为完整的创意生产工具。
GLM 5.2 是 Z.ai 推出的全新开放权重模型,与 Claude Opus 在 3D 游戏编码任务中进行了对比。Opus 性能更快更清晰,但 GLM 5.2 在成本和易用性上具有显著优势。
Alex Ellis比较了本地Qwen模型与云端的Claude Opus,分享了他在自己的软件业务中使用本地AI的经验。他强调了本地模型在特定任务中的实用价值,同时也承认了其局限性,例如量化时出现的幻觉和无限循环。
FreeModel.dev提供一个免费API代理,每周赠送66美元的GPT-5.5和Claude Opus额度,并设有推荐奖励。
使用iPhone、Mac Mini M4和Claude Opus 4.8搭建本地AI智能体框架的指南,让自主智能体在家24/7运行,处理任务并随时间自我改进。
有人利用 Claude Opus 开发了一个 AI 屏幕画笔家教,能直接在用户屏幕上画图指导,例如在 YouTube 上标注勾股定理或圈出 FL Studio 按钮,提供沉浸式学习体验。
利用Claude Opus构建了一款AI导师,能够在屏幕上以像素级精确度绘制图形,引导用户完成复杂步骤,并通过勾股定理和FL Studio进行了演示。
Ahmad Osman宣布了VibeThinker 3B,这是一个基于Qwen 2.5的30亿参数模型,声称性能可与Claude Opus 4.5媲美,并预测可在消费级硬件上进行本地部署。
使用 Claude Opus 4.8 和 OpenClaw 构建全自动获客系统,通过扫描餐厅、分析食物照片、重建宣传片并寄送实体明信片,实现无人工干预的获客流程。
在Minebench(Minecraft)基准测试中,对GPT和Claude Opus多种模型版本进行比较,并针对特定建筑对GPT-5.5和Fable 5进行了详细评判。
对 Claude Opus 4.8 和 Claude Fable 5 在 MineBench 基准上的详细比较,重点突出了推理时间、成本、构建质量和提示敏感性方面的权衡。
一位开发者分享了一种架构模式,用于管理持续运行的Anthropic智能体循环中的上下文窗口膨胀问题,采用KV缓存、动态工具模式加载,以及通过Claude 3.5 Sonnet和Claude 3 Opus解耦执行器与顾问角色。
一个分享让AI智能体自主长时间运行实用技巧的帖子,重点介绍Opus模型,涉及权限、动态工作流和验证方面的建议。
关于如何让Anthropic的Claude Opus自主运行数小时或数天的实用技巧,例如使用自动模式、动态工作流和自我验证;还提到了用于长期软件任务的SWE-Marathon基准测试。
一个团队通过使用Claude Opus 4.8进行编排、Kimi K2.6 Agent Swarm执行任务,配合一个包含15个提示词的详细系统,将AI工作流成本从每月62,000美元大幅削减至7,800美元。
Anthropic 发布工程博文详细拆解多智能体系统,使用 Claude Opus 4 作为主协调器、Claude Sonnet 4 作为子智能体,多智能体系统比单智能体 Claude Opus 4 性能提升 90.2%,同时 token 消耗增加约 15 倍,并总结了五种协作模式。
Jiayuan Zhang分享了对M3模型coding能力的初步体验,称相比m2.7有质的提升,但1-shot结果不如Opus 4.6/4.7和GPT5.5全面。