llm-benchmark

#llm-benchmark

我们使用 LLM 分析代码库中的每一个文件。所有人都认为这是出于成本考虑的一个愚蠢想法，但事实并非如此。

Reddit r/ArtificialInteligence ↗ · 2026-05-12

一项基准研究表明，使用 LLM 分析整个代码库具有成本效益。DeepSeek V4 Flash 因其低成本以及与 Claude Opus 等高端选项相当的准确率，被确定为最佳默认模型。

0 人收藏 0 人点赞

#llm-benchmark

PACT，LLM 正面交锋谈判基准。20 轮买卖双方议价博弈：每轮 AI 可互发消息，买方提交出价，卖方提交要价。若出价 ≥ 要价，则以中间价成交。涵盖数千场对局。

Reddit r/singularity ↗ · 2026-05-11

PACT 推出了针对 LLM 的对抗性谈判基准测试，通过 20 轮买卖双方议价博弈来评估模型的说服力与适应能力。顶尖模型包括 GPT-5.5 和 Opus 4.7，评分由 Glicko-2 算法计算，并采用类 Elo 评分体系展示。

0 人收藏 0 人点赞

#llm-benchmark

IndustryBench：探测大语言模型在工业知识领域的边界

Hugging Face Daily Papers ↗ · 2026-05-11 缓存

本文介绍了 IndustryBench，这是一个针对中文工业采购问答的大语言模型基准测试，以国家标准为参照评估模型表现，突显了安全合规方面的差距。研究揭示，在考虑安全违规的情况下，扩展推理往往会导致安全调整后的评分降低，并改变模型的排名。

0 人收藏 0 人点赞

#llm-benchmark

@seclink: 阶跃星辰根本不是 2C 的产品，又是搞手机又是搞车机 C端用户都没试用满意呢，就推上市了，也是真着急... 感觉还是小米 mimo 最稳，实测试用下来，AI写代码的体验和claude 模型有的一拼，还比 claude 快。甚至…

X AI KOLs Following ↗ · 2026-05-10 缓存

网友质疑阶跃星辰过早推进商业化，同时称赞小米 Mimo 的 AI 写代码体验优于或持平 Claude，速度更快。

0 人收藏 0 人点赞

#llm-benchmark

RTX Pro 4500 Blackwell - Qwen 3.6 27B？

Reddit r/LocalLLaMA ↗ · 2026-05-09

一位开发者分享了在搭载 NVIDIA RTX Pro 4500 Blackwell 显卡的服务器上，使用 llama.cpp 运行 Qwen3.6-27B 模型的本地推理基准测试数据及 systemd 配置。该帖文征集了提升吞吐量的优化建议，并探讨了更大模型的潜在应用场景。

0 人收藏 0 人点赞

#llm-benchmark

@kapicode: 我一直在使用 Claude 作为“人类”来提示 @opencode 以重建参考项目，在同一测试平台上评估了四款 LLM…

X AI KOLs Following ↗ · 2026-05-08

一项针对四款大语言模型（Qwen、MiniMax、GLM）的评估显示，当使用 Claude 作为 Opencode 智能体工具的提示器时，一个较小的本地模型（运行在 3090 显卡上的 Qwen 27B）在代码质量与可靠性方面表现优于更大的剪枝模型。

0 人收藏 0 人点赞

#llm-benchmark

AlignCultura：迈向文化对齐的大语言模型？

arXiv cs.CL ↗ · 2026-04-22 缓存

AlignCultura 推出基于 UNESCO 框架的 CulturaX 数据集与两阶段对齐流程，在 Qwen3-8B 与 DeepSeek-R1-Distill-Qwen-7B 上实现 HHH 指标提升 4–6%，文化失误率降低 18%。

0 人收藏 0 人点赞

#llm-benchmark

我针对 Gemma 4 和 Qwen 3.5 的 30B 级别模型进行了一项实验，旨在探究能耗与性能的权衡关系。换句话说，我想弄清楚哪些模型在输出同等质量的回答时会消耗更多的电能。

Reddit r/LocalLLaMA ↗ · 2026-04-21

针对四款 30B 级别的稠密模型与 MoE 模型的实证研究显示，Gemma-4 26B MoE 在处理相同推理任务时，仅需 1.9–15 Wh 的能耗即可实现同等精度；而稠密模型及更大规模的 MoE 变体在该场景下的功耗最高可达 34 Wh。

0 人收藏 0 人点赞

#llm-benchmark

Opus 4.7 (high) 登顶 LLM Debate Benchmark，领先前任冠军 Sonnet 4.6 (high) 106 BT 分。更惊人的是，它在所有已完成的“立场互换”对决中未尝败绩：51 胜、4 平、0 负。

Reddit r/singularity ↗ · 2026-04-20

更多详情、完整辩词、模型档案与对比：[https://github.com/lechmazur/debate](https://github.com/lechmazur/debate) 模型就同一辩题互换正反方各辩一次。Opus 4.7 常能抓住辩论的“轴心”，把整场交锋拉回关键点，并迫使对方按它的节奏防守。每场完整辩论由三模型裁判团评分，裁判与辩手避免同一家族。

0 人收藏 0 人点赞

#llm-benchmark

在连续生活日志场景中评估记忆能力

arXiv cs.CL ↗ · 2026-04-20 缓存

本文介绍了 LifeDialBench，一个新颖的基准测试，用于在可穿戴设备驱动的连续生活日志场景中评估记忆能力，并提出了一个强制执行时间因果性的在线评估协议。关键发现：复杂的记忆系统表现不如简单的 RAG 基线，突出了高保真上下文保存相比有损压缩的重要性。

0 人收藏 0 人点赞

#llm-benchmark

“Browser OS”由Qwen 3.6 35B实现：这是我从本地模型获得的最佳结果

Reddit r/LocalLLaMA ↗ · 2026-04-19

一位用户报告称，通过Qwen 3.6 35B在本地运行'Browser OS'实现，取得了令人印象深刻的结果，凸显了该模型在不依赖云端的情况下执行复杂任务的能力。

0 人收藏 0 人点赞

llm-benchmark

提交意见反馈