ai-performance

标签

Cards List
#ai-performance

@peterom: 1) GLM 5.2 + Kimi 2.7 感觉仅略微逊色于顶级模型 2) 那额外的智能确实重要…

X AI KOLs Following · 2026-06-17 缓存

一条推文认为,GLM 5.2 和 Kimi 2.7 仅略微逊色于顶级模型,通过合理的规划/系统可以处理 95-99% 的复杂任务。并警告美国监管可能有利于中国 AI 参与者。

0 人收藏 0 人点赞
#ai-performance

我仍然惊讶于 KV 量化变得多么出色

Reddit r/LocalLLaMA · 2026-06-15

作者对键值缓存量化(q4_0)即使在长上下文窗口下依然有效感到惊讶,并引用了从 10 万上下文中准确检索的结果。

0 人收藏 0 人点赞
#ai-performance

@LM_Braswell:已确认,LLMs现在比满屋子的狂热Anagram玩家还要厉害——你能找出最后一个I应该放在哪里吗?

X AI KOLs Following · 2026-06-10 缓存

最近的评估显示,LLMs已经超越了满屋子精通Anagram的玩家。

0 人收藏 0 人点赞
#ai-performance

@AnthropicAI:每次发布新模型时,我们都会运行相同的测试:给模型一段训练小型AI模型的代码,要求新模型对其进行加速。

X AI KOLs · 2026-06-04

Anthropic 分享了内部基准测试结果,展示了AI编码能力的显著提升:2024年5月,Claude Opus 4 在机器学习代码优化任务上平均加速约3倍;而今年4月发布的新模型 Mythos Preview 达到了约52倍加速,相比之下,一位熟练人类工程师需要4-8小时才能实现4倍加速。

0 人收藏 0 人点赞
#ai-performance

像DeepSWE这样的新基准测试现在显示专有模型与开源模型之间存在巨大差距

Reddit r/singularity · 2026-05-31

像DeepSWE这样的新基准测试揭示了专有与开源AI模型之间的显著性能差距,令开源社区感到失望。

0 人收藏 0 人点赞
#ai-performance

为何GPT 5.5在DeepSWE上表现最佳的同时却具有极高的幻觉率?

Reddit r/singularity · 2026-05-31

用户质疑GPT 5.5为何在DeepSWE编程基准测试中表现最佳,同时却有高达86%的幻觉率,而Opus 4.7幻觉率较低(36%)但可能利用了基准测试的漏洞。

0 人收藏 0 人点赞
#ai-performance

@VraserX: GPT-5.5 依然是王者。GPT-5.5 以几乎一半的成本和大约两倍的速度碾压 Claude Opus 4.8。OpenAI …

X AI KOLs Timeline · 2026-05-30 缓存

一条推文声称,OpenAI 的 GPT-5.5 以近乎一半的成本和双倍的速度表现优于 Claude Opus 4.8,宣称 OpenAI 在 AI 领域继续保持统治地位。

0 人收藏 0 人点赞
#ai-performance

他们说可与Opus媲美...

Reddit r/ArtificialInteligence · 2026-05-23

有说法称,一款新的人工智能模型可与顶级模型Opus相媲美,这表明性能上取得了重大进展。

0 人收藏 0 人点赞
#ai-performance

等等……MacOS不能发短信?你们买了Mac mini?啥

Reddit r/openclaw · 2026-05-22

用户批评MacOS不支持通过iMessage发送SMS/RCS消息,且在CPU上AI性能差,质疑购买Mac的合理性。

0 人收藏 0 人点赞
#ai-performance

@mikotossd0106: 感觉deepseek 每次的性能都是准一流的,每次离御三家差一点但是又差的不多,倒逼御三家疯狂堆算力拉开差距,结果没过多久deepseek 又带着一堆破铜烂铁追上来了

X AI KOLs Timeline · 2026-05-17

评论指出DeepSeek每次模型性能都接近顶级AI公司(御三家),迫使它们大量投入算力以保持领先,但DeepSeek随后又能以低成本方案再次追赶上来。

0 人收藏 0 人点赞
#ai-performance

@CodeByPoonam:Claude Opus 4.7 对比 Kimi K2.6,完全不在一个档次。三个月前没人相信开源能击败 Claude,而今天它做到了…

X AI KOLs Timeline · 2026-05-11 缓存

该推文声称开源模型 Kimi K2.6 已超越 Claude Opus 4.7,标志着开源 AI 在短短三个月内取得重大突破。文中附上了完整指南与提示词的链接,以便验证对比结果。

0 人收藏 0 人点赞
#ai-performance

Mojo 1.0 Beta

Hacker News Top · 2026-05-08 缓存

Modular 宣布推出 Mojo 1.0 Beta,这是一种高性能编程语言,将 Python 的易用性与编译型语言的速度相结合,专为 AI 和系统编程设计。

0 人收藏 0 人点赞
#ai-performance

ChatGPT 语音模式是一个较弱的模型

Simon Willison's Blog · 2026-04-10 缓存

ChatGPT 的语音模式运行在一个较弱的 GPT-4o 时代模型上,知识截止日期为 2024 年 4 月,比 OpenAI 最新能力要旧得多。文章强调了 OpenAI 消费者语音界面与其更高级付费模型之间日益扩大的差距,这种差距是由于奖励信号清晰度和 B2B 市场激励的差异造成的。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈