视觉 vs 描述。将任务拆分成不同模型的效果比预期更好。
摘要
用户分享了一个经验:将视觉编码任务拆分为 Gemini(从图像生成 XML 描述)和 Claude(生成 Next.js/Tailwind 代码)两个部分,相比单独使用 Claude,提高了准确性并降低了 token 成本。
大约一小时前,我在使用 Claude 项目编写代码。我正在构建我的网站,并考虑从 Image 2 生成原型,然后使用 Claude。我要求它根据显示的图像提供 Next.js 和 Tailwind 的组件。但它生成了胡言乱语。视觉描述完美地处理了所有视觉元素,但 Claude 无法将其编码,生成了一些……*可耻*的内容。因此,尽管 Claude 擅长编码和创意写作,但在分析图像时却完全不行。经过简短研究后,我使用 Gemini 通过 XML 正确定义了视觉内容。然后将 XML + 视觉内容粘贴到 Claude 中。结果它生成了与显示完全一致的内容(只是背景为黑色并做了一些调整)。之前我的成本是:250K token = 废话。之后,成本是:140K token。成本更低,但结果实际上大不相同。对此你怎么看?PS:顺便说一下,我正在考虑制作一部纪录片,讨论如何使用 LLM 构建强大的 SaaS。我会讨论我的失败和领悟。只是说说而已 ^_________^ 。如果我不适合这个子论坛,请点踩并评论。
相似文章
Claude 视觉 vs Gemini 视觉(Gemini 在视觉和世界知识方面远胜)
一项对比指出,Google 的 Gemini 在视觉和世界知识任务上优于 Anthropic 的 Claude。
喜欢 Gemma4 模型的朋友们——你们都是怎么用的?
一位开发者分享了在本地运行 Gemma4 和 Qwen 进行编程任务的复杂体验,指出了工具集成、循环处理和任务完成方面存在的问题,并向社区寻求更优化的使用策略。
Ask HN: 有没有人用本地模型替代 Claude/GPT 进行日常编码?
Hacker News 上的一场讨论探讨了开发者是否可以在日常编码中用本地模型替代像 Claude 这样的云端 AI 模型。参与者分享了经验,指出本地模型(例如 Qwen、Gemma)对爱好者来说可行,但在专业使用上仍落后于顶级云端模型。
使用 Claude Code:HTML 出人意料的有效性
Simon Willison 探讨了使用 HTML 而非 Markdown 作为 AI 输出格式的有效性,突出了 SVG 图表、交互式组件和丰富说明等优势。内容包含 Anthropic 公司 Claude Code 团队 Thariq Shihipar 的案例以及 GPT-5.5 的实用提示。
Claude Code 与 OpenCode 对比:我在两者上运行了相同的智能体任务。以下是各自的不足之处。
亲身对比 Claude Code 和 OpenCode 在多种编码任务中的表现,发现 Claude Code 在前端无缝工作和长会话方面更胜一筹,而 OpenCode 则提供更大的灵活性、模型自由度和可检查性。