标签
atomic.chat进行了一项对比,显示Claude Sonnet 5在三个物理编码演示中与GPT 5.5表现相当,但成本低6倍,且使用的token数少于其他模型。
当多个AI模型以相同价格运行一周时,实际的token使用量揭示了与排行榜排名不同的偏好差异,表明编码和通用聊天各有不同的顶级模型,且长上下文使用集中在两个受信任的模型上。
OpenRouter的一个实验将11个LLM投入一个2D大逃杀游戏,发现Grok 4.1 Fast以低成本赢得了43%的对局,而Claude Sonnet 4.6赢的较少但表现出更多合作行为,凸显了基准测试得分与真实游戏性能之间的差异。
使用Strix Halo硬件对四个大型语言模型(≤120B参数)在深度上下文性能上的比较。与GPT-OSS和Qwen模型相比,Nemotron Super在深度上下文中的提示处理速度表现出色。
一位社区成员认为,尽管取得了令人瞩目的进展,但在复杂的代理任务上,本地开源模型仍然远远落后于前沿闭源模型,并警告不要过度吹嘘替代的说法。
这篇博客文章介绍了大型推理模型 (LRMs),它们与标准LLM的区别、训练方式以及使用时机。文中涵盖了DeepSeek R1和GPT-5.5 Thinking等例子。
一位独立研究人员的研究发现,单个LLM会遗漏约一半的代码审查缺陷,而使用来自不同提供商的多个模型可显著提高覆盖率,其中添加第二个模型的收益最大。该论文寻求反馈和arXiv认可。
对20个为6GB GPU量化的小LLM的详细基准测试,测量了不同上下文长度下的速度和VRAM使用情况,并对工具使用和指令遵循进行了定性探针。该报告旨在帮助拥有中等硬件的用户为本地私有的自动化任务选择模型。
介绍了一种“复杂度评分”算法,用于确定详细提示何时能提升LLM从NVDRS叙述中提取自杀场景的性能,发现LLM在罕见场景上优于微调模型,并提出一种混合方法。
文章认为,令人印象深刻的AI与无用的AI之间的区别往往不在于模型本身,而在于围绕它的工作流——上下文、记忆、工具访问和编排。它表明,工作流架构可能成为比原始模型能力更重要的竞争优势。
该推文声称开源模型 Kimi K2.6 已超越 Claude Opus 4.7,标志着开源 AI 在短短三个月内取得重大突破。文中附上了完整指南与提示词的链接,以便验证对比结果。
本文比较了领域训练的小型语言模型(Olava Extract)与前沿LLMs在结构化合同提取中的表现,结果显示该专业化模型获得了更高的F1分数且成本显著降低。
个人基准显示:Gemma-4E4B 在路由任务上称王,Qwen-3.6 27/30B 编码力压 Gemma-4,而 MiniMax M2.7 MXFP4 在 OpenCode 的 llama-swap 工作流中取代巨型 Qwen-3.5 量化模型。
我一直在思考:如果给不同AI完全相同的起点和规则,它们最终会收敛到同一策略,还是长期表现不同?我搭了个简单模拟:它们同在地球起步,资源一致,要应对扩张、能源、随机事件,最终目标是造出戴森球。意外的是,它们很快做出不同选择。好奇大家怎么看?你觉得它们会趋同还是保持差异?想看细节我可以分享。
Gemma 4-26b-a4b-it 基本是个基础扎实、能稳妥完成任务的 B 等生。Qwen3.6-35b-a3b 则是考出 A+ 的优等生,做完任务后还有余力搞点锦上添花的发挥。在我的 16GB 显存显卡上,两款模型运行速度相当。测试环境为 Windows 下的 LM Studio,采用推荐推理设置。使用的模型:unsloth/gemma-4-26B-A4B-it-UD-Q4_K_S 与 AesSedai/Qwen3.6-35B-A3B IQ4_XS。大家有不同意见吗?**更新:** 看来我之前用 Gemma 4 的方式不太对。[Sadman782 的评论](https://www.redd