ai-performance

#ai-performance

@peterom: 1) GLM 5.2 + Kimi 2.7 感觉仅略微逊色于顶级模型 2) 那额外的智能确实重要…

X AI KOLs Following ↗ · 2026-06-17 缓存

一条推文认为，GLM 5.2 和 Kimi 2.7 仅略微逊色于顶级模型，通过合理的规划/系统可以处理 95-99% 的复杂任务。并警告美国监管可能有利于中国 AI 参与者。

0 人收藏 0 人点赞

#ai-performance

我仍然惊讶于 KV 量化变得多么出色

Reddit r/LocalLLaMA ↗ · 2026-06-15

作者对键值缓存量化（q4_0）即使在长上下文窗口下依然有效感到惊讶，并引用了从 10 万上下文中准确检索的结果。

0 人收藏 0 人点赞

#ai-performance

@LM_Braswell：已确认，LLMs现在比满屋子的狂热Anagram玩家还要厉害——你能找出最后一个I应该放在哪里吗？

X AI KOLs Following ↗ · 2026-06-10 缓存

最近的评估显示，LLMs已经超越了满屋子精通Anagram的玩家。

0 人收藏 0 人点赞

#ai-performance

@AnthropicAI：每次发布新模型时，我们都会运行相同的测试：给模型一段训练小型AI模型的代码，要求新模型对其进行加速。

X AI KOLs ↗ · 2026-06-04

Anthropic 分享了内部基准测试结果，展示了AI编码能力的显著提升：2024年5月，Claude Opus 4 在机器学习代码优化任务上平均加速约3倍；而今年4月发布的新模型 Mythos Preview 达到了约52倍加速，相比之下，一位熟练人类工程师需要4-8小时才能实现4倍加速。

0 人收藏 0 人点赞

#ai-performance

像DeepSWE这样的新基准测试现在显示专有模型与开源模型之间存在巨大差距

Reddit r/singularity ↗ · 2026-05-31

像DeepSWE这样的新基准测试揭示了专有与开源AI模型之间的显著性能差距，令开源社区感到失望。

0 人收藏 0 人点赞

#ai-performance

为何GPT 5.5在DeepSWE上表现最佳的同时却具有极高的幻觉率？

Reddit r/singularity ↗ · 2026-05-31

用户质疑GPT 5.5为何在DeepSWE编程基准测试中表现最佳，同时却有高达86%的幻觉率，而Opus 4.7幻觉率较低（36%）但可能利用了基准测试的漏洞。

0 人收藏 0 人点赞

#ai-performance

@VraserX: GPT-5.5 依然是王者。GPT-5.5 以几乎一半的成本和大约两倍的速度碾压 Claude Opus 4.8。OpenAI …

X AI KOLs Timeline ↗ · 2026-05-30 缓存

一条推文声称，OpenAI 的 GPT-5.5 以近乎一半的成本和双倍的速度表现优于 Claude Opus 4.8，宣称 OpenAI 在 AI 领域继续保持统治地位。

0 人收藏 0 人点赞

#ai-performance

他们说可与Opus媲美...

Reddit r/ArtificialInteligence ↗ · 2026-05-23

有说法称，一款新的人工智能模型可与顶级模型Opus相媲美，这表明性能上取得了重大进展。

0 人收藏 0 人点赞

#ai-performance

等等……MacOS不能发短信？你们买了Mac mini？啥

Reddit r/openclaw ↗ · 2026-05-22

用户批评MacOS不支持通过iMessage发送SMS/RCS消息，且在CPU上AI性能差，质疑购买Mac的合理性。

0 人收藏 0 人点赞

#ai-performance

@mikotossd0106: 感觉deepseek 每次的性能都是准一流的，每次离御三家差一点但是又差的不多，倒逼御三家疯狂堆算力拉开差距，结果没过多久deepseek 又带着一堆破铜烂铁追上来了

X AI KOLs Timeline ↗ · 2026-05-17

评论指出DeepSeek每次模型性能都接近顶级AI公司（御三家），迫使它们大量投入算力以保持领先，但DeepSeek随后又能以低成本方案再次追赶上来。

0 人收藏 0 人点赞

#ai-performance

@CodeByPoonam：Claude Opus 4.7 对比 Kimi K2.6，完全不在一个档次。三个月前没人相信开源能击败 Claude，而今天它做到了…

X AI KOLs Timeline ↗ · 2026-05-11 缓存

该推文声称开源模型 Kimi K2.6 已超越 Claude Opus 4.7，标志着开源 AI 在短短三个月内取得重大突破。文中附上了完整指南与提示词的链接，以便验证对比结果。

0 人收藏 0 人点赞

#ai-performance

Mojo 1.0 Beta

Hacker News Top ↗ · 2026-05-08 缓存

Modular 宣布推出 Mojo 1.0 Beta，这是一种高性能编程语言，将 Python 的易用性与编译型语言的速度相结合，专为 AI 和系统编程设计。

0 人收藏 0 人点赞

#ai-performance

ChatGPT 语音模式是一个较弱的模型

Simon Willison's Blog ↗ · 2026-04-10 缓存

ChatGPT 的语音模式运行在一个较弱的 GPT-4o 时代模型上，知识截止日期为 2024 年 4 月，比 OpenAI 最新能力要旧得多。文章强调了 OpenAI 消费者语音界面与其更高级付费模型之间日益扩大的差距，这种差距是由于奖励信号清晰度和 B2B 市场激励的差异造成的。

0 人收藏 0 人点赞

ai-performance

提交意见反馈