llm-benchmark

标签

Cards List
#llm-benchmark

我们使用 LLM 分析代码库中的每一个文件。所有人都认为这是出于成本考虑的一个愚蠢想法,但事实并非如此。

Reddit r/ArtificialInteligence · 2026-05-12

一项基准研究表明,使用 LLM 分析整个代码库具有成本效益。DeepSeek V4 Flash 因其低成本以及与 Claude Opus 等高端选项相当的准确率,被确定为最佳默认模型。

0 人收藏 0 人点赞
#llm-benchmark

PACT,LLM 正面交锋谈判基准。20 轮买卖双方议价博弈:每轮 AI 可互发消息,买方提交出价,卖方提交要价。若出价 ≥ 要价,则以中间价成交。涵盖数千场对局。

Reddit r/singularity · 2026-05-11

PACT 推出了针对 LLM 的对抗性谈判基准测试,通过 20 轮买卖双方议价博弈来评估模型的说服力与适应能力。顶尖模型包括 GPT-5.5 和 Opus 4.7,评分由 Glicko-2 算法计算,并采用类 Elo 评分体系展示。

0 人收藏 0 人点赞
#llm-benchmark

IndustryBench:探测大语言模型在工业知识领域的边界

Hugging Face Daily Papers · 2026-05-11 缓存

本文介绍了 IndustryBench,这是一个针对中文工业采购问答的大语言模型基准测试,以国家标准为参照评估模型表现,突显了安全合规方面的差距。研究揭示,在考虑安全违规的情况下,扩展推理往往会导致安全调整后的评分降低,并改变模型的排名。

0 人收藏 0 人点赞
#llm-benchmark

@seclink: 阶跃星辰 根本不是 2C 的产品 ,又是搞手机 又是搞车机 C端用户都没试用满意呢,就推上市了,也是真着急... 感觉还是小米 mimo 最稳, 实测试用下来,AI写代码的体验和claude 模型 有的一拼,还比 claude 快。 甚至…

X AI KOLs Following · 2026-05-10 缓存

网友质疑阶跃星辰过早推进商业化,同时称赞小米 Mimo 的 AI 写代码体验优于或持平 Claude,速度更快。

0 人收藏 0 人点赞
#llm-benchmark

RTX Pro 4500 Blackwell - Qwen 3.6 27B?

Reddit r/LocalLLaMA · 2026-05-09

一位开发者分享了在搭载 NVIDIA RTX Pro 4500 Blackwell 显卡的服务器上,使用 llama.cpp 运行 Qwen3.6-27B 模型的本地推理基准测试数据及 systemd 配置。该帖文征集了提升吞吐量的优化建议,并探讨了更大模型的潜在应用场景。

0 人收藏 0 人点赞
#llm-benchmark

@kapicode: 我一直在使用 Claude 作为“人类”来提示 @opencode 以重建参考项目,在同一测试平台上评估了四款 LLM…

X AI KOLs Following · 2026-05-08

一项针对四款大语言模型(Qwen、MiniMax、GLM)的评估显示,当使用 Claude 作为 Opencode 智能体工具的提示器时,一个较小的本地模型(运行在 3090 显卡上的 Qwen 27B)在代码质量与可靠性方面表现优于更大的剪枝模型。

0 人收藏 0 人点赞
#llm-benchmark

AlignCultura:迈向文化对齐的大语言模型?

arXiv cs.CL · 2026-04-22 缓存

AlignCultura 推出基于 UNESCO 框架的 CulturaX 数据集与两阶段对齐流程,在 Qwen3-8B 与 DeepSeek-R1-Distill-Qwen-7B 上实现 HHH 指标提升 4–6%,文化失误率降低 18%。

0 人收藏 0 人点赞
#llm-benchmark

我针对 Gemma 4 和 Qwen 3.5 的 30B 级别模型进行了一项实验,旨在探究能耗与性能的权衡关系。换句话说,我想弄清楚哪些模型在输出同等质量的回答时会消耗更多的电能。

Reddit r/LocalLLaMA · 2026-04-21

针对四款 30B 级别的稠密模型与 MoE 模型的实证研究显示,Gemma-4 26B MoE 在处理相同推理任务时,仅需 1.9–15 Wh 的能耗即可实现同等精度;而稠密模型及更大规模的 MoE 变体在该场景下的功耗最高可达 34 Wh。

0 人收藏 0 人点赞
#llm-benchmark

Opus 4.7 (high) 登顶 LLM Debate Benchmark,领先前任冠军 Sonnet 4.6 (high) 106 BT 分。更惊人的是,它在所有已完成的“立场互换”对决中未尝败绩:51 胜、4 平、0 负。

Reddit r/singularity · 2026-04-20

更多详情、完整辩词、模型档案与对比:[https://github.com/lechmazur/debate](https://github.com/lechmazur/debate) 模型就同一辩题互换正反方各辩一次。Opus 4.7 常能抓住辩论的“轴心”,把整场交锋拉回关键点,并迫使对方按它的节奏防守。每场完整辩论由三模型裁判团评分,裁判与辩手避免同一家族。

0 人收藏 0 人点赞
#llm-benchmark

在连续生活日志场景中评估记忆能力

arXiv cs.CL · 2026-04-20 缓存

本文介绍了 LifeDialBench,一个新颖的基准测试,用于在可穿戴设备驱动的连续生活日志场景中评估记忆能力,并提出了一个强制执行时间因果性的在线评估协议。关键发现:复杂的记忆系统表现不如简单的 RAG 基线,突出了高保真上下文保存相比有损压缩的重要性。

0 人收藏 0 人点赞
#llm-benchmark

“Browser OS”由Qwen 3.6 35B实现:这是我从本地模型获得的最佳结果

Reddit r/LocalLLaMA · 2026-04-19

一位用户报告称,通过Qwen 3.6 35B在本地运行'Browser OS'实现,取得了令人印象深刻的结果,凸显了该模型在不依赖云端的情况下执行复杂任务的能力。

0 人收藏 0 人点赞
← Previous
← 返回首页

提交意见反馈