ai-comparison

#ai-comparison

闭源模型和开源模型之间的差距可能远小于普遍认为的，因为我们不知道闭源模型提供商在模型推理之外还做了些什么

Reddit r/LocalLLaMA ↗ · 13小时前

文章认为，比较闭源和开源AI模型可能不公平，因为像Anthropic这样的闭源模型提供商可以通过RAG、提示预处理或隐藏的专家模型等技术来补充其模型输出，使得基准比较变成了苹果与橙子的对比。

0 人收藏 0 人点赞

#ai-comparison

@stevibe: 三种销毁一张纸的方法。Qwen 3.5 35B A3B 对比 Ornith 1.0 35B，并排画布测试。（为什么是3.5而不是3.6？或者……）

X AI KOLs Timeline ↗ · 4天前缓存

一项并排画布测试，对比了Qwen 3.5 35B A3B和Ornith 1.0 35B在三种纸张销毁任务（切割、碎纸、揉团）上的表现，Ornith取得决定性胜利，展示了在Qwen 3.5和Gemma 4上进行后训练的价值。

0 人收藏 0 人点赞

#ai-comparison

@jun_song: GPT-5.6 似乎非常令人失望。并不比 GLM-5.2 好。

X AI KOLs Following ↗ · 2026-06-23 缓存

一位用户表达了对GPT-5.6的失望，声称它并不比GLM-5.2好。

0 人收藏 0 人点赞

#ai-comparison

@omarsar0: 将在本线程中发布更多示例。第一个也很棒：

X AI KOLs Following ↗ · 2026-06-22 缓存

一条推特线程，比较了近期AI模型使用Three.js一次性生成无尽程序化地形的能力，并提及Fugu Ultra作为候选模型。

0 人收藏 0 人点赞

#ai-comparison

本地Qwen并非更差的Opus，而是不同的工具

Lobsters Hottest ↗ · 2026-06-18 缓存

Alex Ellis比较了本地Qwen模型与云端的Claude Opus，分享了他在自己的软件业务中使用本地AI的经验。他强调了本地模型在特定任务中的实用价值，同时也承认了其局限性，例如量化时出现的幻觉和无限循环。

0 人收藏 0 人点赞

#ai-comparison

@TheGeorgePu: 我正在试用DeepSeek V4 Pro，非常喜欢。这个模型被严重低估了。从我运行的几次测试来看，它和Opus 4.8一样好。

X AI KOLs Timeline ↗ · 2026-06-17 缓存

用户@TheGeorgePu称赞DeepSeek V4 Pro，称其被低估，并根据初步测试将其与Opus 4.8进行有利比较。

0 人收藏 0 人点赞

#ai-comparison

那么，Parrot 是否比现有模型更好？[D]

Reddit r/MachineLearning ↗ · 2026-06-12

Reddit上的一个讨论，询问Parrot AI模型是否比现有模型更好，附有一张图片，可能展示了基准测试或对比结果。

0 人收藏 0 人点赞

#ai-comparison

Claude Opus 4.8 与 Claude Fable 5 在 MineBench 上的差异

Reddit r/singularity ↗ · 2026-06-11

对 Claude Opus 4.8 和 Claude Fable 5 在 MineBench 基准上的详细比较，重点突出了推理时间、成本、构建质量和提示敏感性方面的权衡。

0 人收藏 0 人点赞

#ai-comparison

@MMMusol: Gemini 3.1 Pro，GPT 5.5 Deepseek V4和最新Claude Fable 5 做了一个相同的测试，如视频所示，对比请自行体会～提示词如下：创建一个 HTML 文件，用来呈现一架高速、充满攻击性的战斗机在全力加…

X AI KOLs Timeline ↗ · 2026-06-10 缓存

多个AI模型（Gemini 3.1 Pro、GPT 5.5、Deepseek V4、Claude Fable 5）被要求生成同一款战斗机HTML动画，视频展示了各模型的输出对比。

0 人收藏 0 人点赞

#ai-comparison

为什么所有构建的智能体都只是更差的Claude Code？

Reddit r/AI_Agents ↗ · 2026-06-10

一位开发者质疑构建专用AI智能体的价值，因为像Claude Code这样的通用工具也能完成同样的任务，他认为当前的智能体方法不过是能力更弱、加了额外护栏的Claude版本。

0 人收藏 0 人点赞

#ai-comparison

@auroter: Frontier AI 简直脑死亡。GPT5.5 xHigh 在 Codex 中认为我应该使用张量并行来部署 Qwen 3.6 27B 在我的系统上…

X AI KOLs Following ↗ · 2026-06-08 缓存

作者批评 Frontier AI（GPT5.5 xHigh）错误地建议对一个能单 GPU 容纳的模型使用张量并行，并宣布计划进行一场对决，比较多个 AI 模型（GPT5.5、Opus 4.8、Qwen 系列、Nemotron）在真实问题上的表现。

0 人收藏 0 人点赞

#ai-comparison

@royxy: 你们都传说应该用 Codex 做 plan，而用 Deepseek 做实施。但我最近这两天对于一个相当复杂的，应该从来没有人做过的项目进行推进探讨的感受是，Deepseek 的创造性要比 Codex 高，而 Codex 落地的逻辑能力和工…

X AI KOLs Timeline ↗ · 2026-05-31

用户分享使用Deepseek和Codex进行复杂项目规划与实施的经验，认为Deepseek更具创造性，而Codex在逻辑和工程能力上更强。

0 人收藏 0 人点赞

#ai-comparison

@elonmusk: Grok

X AI KOLs Following ↗ · 2026-05-26 缓存

埃隆·马斯克强调了Grok对一位用户的回复，该用户复制了Gemini对比利时仇恨言论定罪的解读，并要求Grok进行回应。

0 人收藏 0 人点赞

#ai-comparison

Gemini 3.5 flash 得分，尚未超越 GPT 5.4 xhigh

Reddit r/singularity ↗ · 2026-05-19

Gemini 3.5 flash 在基准测试中取得了一定分数，但性能尚未超越 GPT 5.4 xhigh。

0 人收藏 0 人点赞

#ai-comparison

同时使用Claude Pro和ChatGPT Plus四个月后的诚实对比

Reddit r/AI_Agents ↗ · 2026-05-18

为期四个月的Claude Pro与ChatGPT Plus详细对比显示，Claude在长文写作和复杂编码方面表现出色，上下文保持能力更强，而ChatGPT在速度和日常简单任务上胜出。

0 人收藏 0 人点赞

#ai-comparison

ChatGPT 购物对比 Perplexity 与 Wizard AI

Reddit r/ArtificialInteligence ↗ · 2026-05-08

一位用户比较了 ChatGPT、Perplexity 和 Wizard AI 在购物推荐方面的表现，指出了品牌多样性和购买集成方面的差异。

0 人收藏 0 人点赞

ai-comparison

提交意见反馈