标签
作者介绍了effectiveTPS的网站计划,这是一款使用新的'eTPS'指标(有效TPS)以及原始速度和延迟来比较本地AI模型的工具。其目标是提供一个简单的排行榜,突出展示有用的输出质量,而非原始营销数字。
用户质疑Qwen的27B稠密模型为何能胜过其397B MoE版本,引发关于MoE效率与稠密模型质量的讨论。
用户反馈,尽管基准测试表现亮眼,Qwen 3.5 122B 在多步任务上大幅领先 Qwen 3.6 35B,怀疑是量化或部署配置问题。
社区整理的图表显示 2025 年 11 月至 2026 年 4 月开源大模型爆发式增长,仅保留最新版本与较大参数模型以避免信息过载。
开发者报告称,像 qwen3.6-35b-A3b 这种“活跃参数量”较小的 MOE 模型,相比稠密的 qwen3.5-27b,一致性更低、需要更多引导,很难直接塞进智能体工作流。
经过实测并结合部分客户反馈,这是目前首款让我有底气向客户推荐用于替代 Opus 4.7 的模型。虽然它在单项能力上并未明显超越 Opus 4.7,但能以可接受的质量完成 Opus 约 85% 的任务,同时还配备了视觉理解和强大的浏览器操作能力。我最近一直在逐步将部分个人工作流迁移至 Kimi K2.6,表现令人惊喜,尤其在长周期任务中尤为出色。尽管该模型体积庞大,
社交媒体帖子暗示 Kimi Moonshot 的最新模型已超越人们对 DeepSeek v4 的期待。
用户在社交媒体上抱怨年初订阅的 Google AI Pro 服务迅速贬值,Antigravity 与 gemini cli 体验恶化且存在封号问题,同时认为 Gemini Pro 及 nano banana 在性能上已被 Claude、GPT 及 GPT Image 2 超越。
Simon Willison 升级了他的 Claude Token Counter 工具,增加了对不同 Claude 模型之间的 token 数量对比功能。升级后的工具发现,Claude Opus 4.7 采用的新分词器相比 Opus 4.6 对相同文本需要多 1.46 倍的 token,这导致成本增加约 40%,尽管两个模型定价相同。
社区讨论:将编码代理从 Claude Opus 4.7 切换至 Qwen-35B-A3B,寻求用户体验与性能对比。
Simon Willison对比了在MacBook Pro上本地运行的Qwen3.6-35B-A3B与Claude Opus 4.7,发现Qwen生成的骑自行车的鹈鹕和骑独轮车的火烈鸟的SVG插图更好,不过他指出这个狭窄的基准测试并不能反映更广泛的模型能力。