视觉 vs 描述。将任务拆分成不同模型的效果比预期更好。

Reddit r/ArtificialInteligence 2026/05/16 19:13 新闻

multi-model claude gemini image-to-code workflow cost-optimization

摘要

用户分享了一个经验：将视觉编码任务拆分为 Gemini（从图像生成 XML 描述）和 Claude（生成 Next.js/Tailwind 代码）两个部分，相比单独使用 Claude，提高了准确性并降低了 token 成本。

大约一小时前，我在使用 Claude 项目编写代码。我正在构建我的网站，并考虑从 Image 2 生成原型，然后使用 Claude。我要求它根据显示的图像提供 Next.js 和 Tailwind 的组件。但它生成了胡言乱语。视觉描述完美地处理了所有视觉元素，但 Claude 无法将其编码，生成了一些……*可耻*的内容。因此，尽管 Claude 擅长编码和创意写作，但在分析图像时却完全不行。经过简短研究后，我使用 Gemini 通过 XML 正确定义了视觉内容。然后将 XML + 视觉内容粘贴到 Claude 中。结果它生成了与显示完全一致的内容（只是背景为黑色并做了一些调整）。之前我的成本是：250K token = 废话。之后，成本是：140K token。成本更低，但结果实际上大不相同。对此你怎么看？PS：顺便说一下，我正在考虑制作一部纪录片，讨论如何使用 LLM 构建强大的 SaaS。我会讨论我的失败和领悟。只是说说而已 ^⁠_⁠_⁠_⁠_⁠_⁠_⁠_⁠_⁠_⁠^ 。如果我不适合这个子论坛，请点踩并评论。

查看原文

视觉 vs 描述。将任务拆分成不同模型的效果比预期更好。

相似文章

Claude 视觉 vs Gemini 视觉（Gemini 在视觉和世界知识方面远胜）

喜欢 Gemma4 模型的朋友们——你们都是怎么用的？

Ask HN: 有没有人用本地模型替代 Claude/GPT 进行日常编码？

使用 Claude Code：HTML 出人意料的有效性

Claude Code 与 OpenCode 对比：我在两者上运行了相同的智能体任务。以下是各自的不足之处。

提交意见反馈