标签
一位用户表达了对GPT-5.6的失望,声称它并不比GLM-5.2好。
GLM 5.2 标志着开放权重模型的一个重要里程碑,展示了在长多步骤任务中强大的上下文保留能力以及更可靠的工具调用。
讨论近期AI模型在'Humanity's Last Exam'基准测试中的得分,指出从2024年5月GPT-4o的2.7%提升至2026年6月左右45%,并对该考试的难度提出疑问。
Opus 4.8 Thinking 在 LMArena 的 Hard Prompts English 基准测试中持续下滑,得分比保持榜首的 Opus 4.6 Thinking 低 23 分。
讨论了将大型AI模型权重从GPU显存卸载到系统内存时的性能权衡,比较了不同GPU配置(如RTX 5090与RTX6000)在运行DeepSeek V4 Pro等模型时的表现。
swyx 回顾了Sam Altman关于构建随着AI模型改进而改进的企业的想法,将其与新出现的Agent Labs概念联系起来,并指出与2025年第四季度收入激增有明显的相关性。
讨论了Gemini 3.5 Flash模型的基准测试结果,可能展示了它在各种AI任务上的表现。
有用户反馈,把高度压缩的 IQ4_XS 换成更大的 IQ4_NL_XL 后,Qwen 3.6 的 Agent 编程准确率大幅提升;虽然 tok/s 下降,但只要 VRAM 够,强烈建议优先选更大的量化。