ai-comparison

标签

Cards List
#ai-comparison

闭源模型和开源模型之间的差距可能远小于普遍认为的,因为我们不知道闭源模型提供商在模型推理之外还做了些什么

Reddit r/LocalLLaMA · 13小时前

文章认为,比较闭源和开源AI模型可能不公平,因为像Anthropic这样的闭源模型提供商可以通过RAG、提示预处理或隐藏的专家模型等技术来补充其模型输出,使得基准比较变成了苹果与橙子的对比。

0 人收藏 0 人点赞
#ai-comparison

@stevibe: 三种销毁一张纸的方法。Qwen 3.5 35B A3B 对比 Ornith 1.0 35B,并排画布测试。(为什么是3.5而不是3.6?或者……)

X AI KOLs Timeline · 4天前 缓存

一项并排画布测试,对比了Qwen 3.5 35B A3B和Ornith 1.0 35B在三种纸张销毁任务(切割、碎纸、揉团)上的表现,Ornith取得决定性胜利,展示了在Qwen 3.5和Gemma 4上进行后训练的价值。

0 人收藏 0 人点赞
#ai-comparison

@jun_song: GPT-5.6 似乎非常令人失望。并不比 GLM-5.2 好。

X AI KOLs Following · 2026-06-23 缓存

一位用户表达了对GPT-5.6的失望,声称它并不比GLM-5.2好。

0 人收藏 0 人点赞
#ai-comparison

@omarsar0: 将在本线程中发布更多示例。第一个也很棒:

X AI KOLs Following · 2026-06-22 缓存

一条推特线程,比较了近期AI模型使用Three.js一次性生成无尽程序化地形的能力,并提及Fugu Ultra作为候选模型。

0 人收藏 0 人点赞
#ai-comparison

本地Qwen并非更差的Opus,而是不同的工具

Lobsters Hottest · 2026-06-18 缓存

Alex Ellis比较了本地Qwen模型与云端的Claude Opus,分享了他在自己的软件业务中使用本地AI的经验。他强调了本地模型在特定任务中的实用价值,同时也承认了其局限性,例如量化时出现的幻觉和无限循环。

0 人收藏 0 人点赞
#ai-comparison

@TheGeorgePu: 我正在试用DeepSeek V4 Pro,非常喜欢。这个模型被严重低估了。从我运行的几次测试来看,它和Opus 4.8一样好。

X AI KOLs Timeline · 2026-06-17 缓存

用户@TheGeorgePu称赞DeepSeek V4 Pro,称其被低估,并根据初步测试将其与Opus 4.8进行有利比较。

0 人收藏 0 人点赞
#ai-comparison

那么,Parrot 是否比现有模型更好?[D]

Reddit r/MachineLearning · 2026-06-12

Reddit上的一个讨论,询问Parrot AI模型是否比现有模型更好,附有一张图片,可能展示了基准测试或对比结果。

0 人收藏 0 人点赞
#ai-comparison

Claude Opus 4.8 与 Claude Fable 5 在 MineBench 上的差异

Reddit r/singularity · 2026-06-11

对 Claude Opus 4.8 和 Claude Fable 5 在 MineBench 基准上的详细比较,重点突出了推理时间、成本、构建质量和提示敏感性方面的权衡。

0 人收藏 0 人点赞
#ai-comparison

@MMMusol: Gemini 3.1 Pro,GPT 5.5 Deepseek V4和最新Claude Fable 5 做了一个相同的测试,如视频所示,对比请自行体会~ 提示词如下: 创建一个 HTML 文件,用来呈现一架高速、充满攻击性的战斗机在全力加…

X AI KOLs Timeline · 2026-06-10 缓存

多个AI模型(Gemini 3.1 Pro、GPT 5.5、Deepseek V4、Claude Fable 5)被要求生成同一款战斗机HTML动画,视频展示了各模型的输出对比。

0 人收藏 0 人点赞
#ai-comparison

为什么所有构建的智能体都只是更差的Claude Code?

Reddit r/AI_Agents · 2026-06-10

一位开发者质疑构建专用AI智能体的价值,因为像Claude Code这样的通用工具也能完成同样的任务,他认为当前的智能体方法不过是能力更弱、加了额外护栏的Claude版本。

0 人收藏 0 人点赞
#ai-comparison

@auroter: Frontier AI 简直脑死亡。GPT5.5 xHigh 在 Codex 中认为我应该使用张量并行来部署 Qwen 3.6 27B 在我的系统上…

X AI KOLs Following · 2026-06-08 缓存

作者批评 Frontier AI(GPT5.5 xHigh)错误地建议对一个能单 GPU 容纳的模型使用张量并行,并宣布计划进行一场对决,比较多个 AI 模型(GPT5.5、Opus 4.8、Qwen 系列、Nemotron)在真实问题上的表现。

0 人收藏 0 人点赞
#ai-comparison

@royxy: 你们都传说应该用 Codex 做 plan,而用 Deepseek 做实施。但我最近这两天对于一个相当复杂的,应该从来没有人做过的项目进行推进探讨的感受是,Deepseek 的创造性要比 Codex 高,而 Codex 落地的逻辑能力和工…

X AI KOLs Timeline · 2026-05-31

用户分享使用Deepseek和Codex进行复杂项目规划与实施的经验,认为Deepseek更具创造性,而Codex在逻辑和工程能力上更强。

0 人收藏 0 人点赞
#ai-comparison

@elonmusk: Grok

X AI KOLs Following · 2026-05-26 缓存

埃隆·马斯克强调了Grok对一位用户的回复,该用户复制了Gemini对比利时仇恨言论定罪的解读,并要求Grok进行回应。

0 人收藏 0 人点赞
#ai-comparison

Gemini 3.5 flash 得分,尚未超越 GPT 5.4 xhigh

Reddit r/singularity · 2026-05-19

Gemini 3.5 flash 在基准测试中取得了一定分数,但性能尚未超越 GPT 5.4 xhigh。

0 人收藏 0 人点赞
#ai-comparison

同时使用Claude Pro和ChatGPT Plus四个月后的诚实对比

Reddit r/AI_Agents · 2026-05-18

为期四个月的Claude Pro与ChatGPT Plus详细对比显示,Claude在长文写作和复杂编码方面表现出色,上下文保持能力更强,而ChatGPT在速度和日常简单任务上胜出。

0 人收藏 0 人点赞
#ai-comparison

ChatGPT 购物对比 Perplexity 与 Wizard AI

Reddit r/ArtificialInteligence · 2026-05-08

一位用户比较了 ChatGPT、Perplexity 和 Wizard AI 在购物推荐方面的表现,指出了品牌多样性和购买集成方面的差异。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈