model-performance

标签

Cards List
#model-performance

@jun_song: GPT-5.6 似乎非常令人失望。并不比 GLM-5.2 好。

X AI KOLs Following · 昨天 缓存

一位用户表达了对GPT-5.6的失望,声称它并不比GLM-5.2好。

0 人收藏 0 人点赞
#model-performance

@haider1: GLM 5.2 感觉像是开放权重模型的 opus 4.5 时刻,真正让我印象深刻的是在长时间、多步骤的…

X AI KOLs Following · 2026-06-17 缓存

GLM 5.2 标志着开放权重模型的一个重要里程碑,展示了在长多步骤任务中强大的上下文保留能力以及更可靠的工具调用。

0 人收藏 0 人点赞
#model-performance

Humanity's Last Exam 当前基准测试成绩思考?

Reddit r/singularity · 2026-06-15

讨论近期AI模型在'Humanity's Last Exam'基准测试中的得分,指出从2024年5月GPT-4o的2.7%提升至2026年6月左右45%,并对该考试的难度提出疑问。

0 人收藏 0 人点赞
#model-performance

Opus 4.8 Thinking 在 LMArena 的 Hard Prompts English 基准测试中持续下滑(再次)

Reddit r/singularity · 2026-06-07

Opus 4.8 Thinking 在 LMArena 的 Hard Prompts English 基准测试中持续下滑,得分比保持榜首的 Opus 4.6 Thinking 低 23 分。

0 人收藏 0 人点赞
#model-performance

将大型模型卸载到系统内存时的性能表现?

Reddit r/LocalLLaMA · 2026-05-24

讨论了将大型AI模型权重从GPU显存卸载到系统内存时的性能权衡,比较了不同GPU配置(如RTX 5090与RTX6000)在运行DeepSeek V4 Pro等模型时的表现。

0 人收藏 0 人点赞
#model-performance

@swyx: 非常迟了,但回想起来,我认为@sama那个传说中的“建立一个随着模型变好而变得更好的业务”基本上就是我这里所说的Agent Labs。

X AI KOLs Following · 2026-05-20 缓存

swyx 回顾了Sam Altman关于构建随着AI模型改进而改进的企业的想法,将其与新出现的Agent Labs概念联系起来,并指出与2025年第四季度收入激增有明显的相关性。

0 人收藏 0 人点赞
#model-performance

Gemini 3.5 Flash 基准测试

Reddit r/singularity · 2026-05-19

讨论了Gemini 3.5 Flash模型的基准测试结果,可能展示了它在各种AI任务上的表现。

0 人收藏 0 人点赞
#model-performance

如果显存允许,尽量跑更大的量化模型

Reddit r/LocalLLaMA · 2026-04-22

有用户反馈,把高度压缩的 IQ4_XS 换成更大的 IQ4_NL_XL 后,Qwen 3.6 的 Agent 编程准确率大幅提升;虽然 tok/s 下降,但只要 VRAM 够,强烈建议优先选更大的量化。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈