视觉 vs 描述。将任务拆分成不同模型的效果比预期更好。

Reddit r/ArtificialInteligence 新闻

摘要

用户分享了一个经验:将视觉编码任务拆分为 Gemini(从图像生成 XML 描述)和 Claude(生成 Next.js/Tailwind 代码)两个部分,相比单独使用 Claude,提高了准确性并降低了 token 成本。

大约一小时前,我在使用 Claude 项目编写代码。我正在构建我的网站,并考虑从 Image 2 生成原型,然后使用 Claude。我要求它根据显示的图像提供 Next.js 和 Tailwind 的组件。但它生成了胡言乱语。视觉描述完美地处理了所有视觉元素,但 Claude 无法将其编码,生成了一些……*可耻*的内容。因此,尽管 Claude 擅长编码和创意写作,但在分析图像时却完全不行。经过简短研究后,我使用 Gemini 通过 XML 正确定义了视觉内容。然后将 XML + 视觉内容粘贴到 Claude 中。结果它生成了与显示完全一致的内容(只是背景为黑色并做了一些调整)。之前我的成本是:250K token = 废话。之后,成本是:140K token。成本更低,但结果实际上大不相同。对此你怎么看?PS:顺便说一下,我正在考虑制作一部纪录片,讨论如何使用 LLM 构建强大的 SaaS。我会讨论我的失败和领悟。只是说说而已 ^⁠_⁠_⁠_⁠_⁠_⁠_⁠_⁠_⁠_⁠^ 。如果我不适合这个子论坛,请点踩并评论。
查看原文

相似文章

Ask HN: 有没有人用本地模型替代 Claude/GPT 进行日常编码?

Hacker News Top

Hacker News 上的一场讨论探讨了开发者是否可以在日常编码中用本地模型替代像 Claude 这样的云端 AI 模型。参与者分享了经验,指出本地模型(例如 Qwen、Gemma)对爱好者来说可行,但在专业使用上仍落后于顶级云端模型。

使用 Claude Code:HTML 出人意料的有效性

Simon Willison's Blog

Simon Willison 探讨了使用 HTML 而非 Markdown 作为 AI 输出格式的有效性,突出了 SVG 图表、交互式组件和丰富说明等优势。内容包含 Anthropic 公司 Claude Code 团队 Thariq Shihipar 的案例以及 GPT-5.5 的实用提示。