model-evaluation

#model-evaluation

并非每项评估都需要运行

arXiv cs.LG ↗ · 昨天缓存

这篇研究论文表明，前沿AI模型在133个基准测试上的得分近似于秩为2，即仅两个潜在因素就解释了超过90%的方差。作者提出了BenchPress，一种在logit空间中进行矩阵补全的方法，仅需少数几个基准测试就能预测模型的完整得分表，从而显著降低评估成本。

0 人收藏 0 人点赞

#model-evaluation

VibeThinker: 在推理上击败Opus 4.5的3B参数模型，采用新颖的SFT+GRPO方法

Hacker News Top ↗ · 2天前缓存

本技术报告介绍了VibeThinker-3B，一个3B参数的密集模型，在AIME26和LiveCodeBench等基准测试上实现了前沿水平的推理性能，通过结合基于课程的SFT、多领域RL和离线自蒸馏，匹配或超越了DeepSeek V3.2和GLM-5等更大的模型。

0 人收藏 0 人点赞

#model-evaluation

@FinanceYF5: 2/ 他评价模型从不看benchmark数字他真正在意的只有一件事：【模型的思维形状】 ——它能多深地理解用户意图 ——它能迭代思考到什么程度 ——它让你感觉"对面有没有人" Fable让他感受到了这种活感 "像回到了2023年"

X AI KOLs Following ↗ · 4天前缓存

该推文强调评价AI模型时不应只看benchmark数字，而应关注模型的"思维形状"——理解用户意图的深度、迭代思考能力以及让用户感受到"对面有人"的活感。作者认为Fable模型在这方面表现出色，让人想起2023年的体验。

0 人收藏 0 人点赞

#model-evaluation

构建独立LLM漂移检测 - 分享方法论，寻求对方法的反馈

Reddit r/artificial ↗ · 6天前

作者分享了一种构建外部LLM漂移检测系统的方法论，该系统持续探测模型行为（模式遵循、指令遵循、拒绝率等），以捕捉API性能的静默退化，并邀请对方法、定价和用例的反馈。

0 人收藏 0 人点赞

#model-evaluation

改进的幻象：信用评分中的拒绝推断策略

arXiv cs.LG ↗ · 2026-06-18 缓存

本文系统评估了信用评分中的拒绝推断方法，并发现了一种结构性失效模式：在自然的再训练周期中，模型的准确率提升但召回率骤降，造成了改进的幻象，而实际拒绝质量却在恶化。本文提出了一种受控探索策略，无需统计假设即可打破反馈循环，并证明即使最低的探索率也足以诊断该问题。

0 人收藏 0 人点赞

#model-evaluation

现在运行本地模型已经很不错了

Hacker News Top ↗ · 2026-06-16 缓存

作者报告说，运行本地AI模型如今已经表现出色，最近发布的GPT-OSS和Gemma 4等模型使得在本地进行自主编码的准确率达到了前沿模型的大约75%，与几个月前相比有了显著提升。

0 人收藏 0 人点赞

#model-evaluation

我搭建了一个竞技场，让LLM们在真实物理规则下进行剑斗。你来决定刀刃哪部分锋利，盲评胜负，免费OpenRouter模型争夺Elo排名。目前Llama 3.3正在刺向GPT-OSS的脸。

Reddit r/AI_Agents ↗ · 2026-06-12

新竞技场让LLM控制物理布娃娃进行武器对决，用户定义武器伤害区域、盲评投票，模型争夺Elo排名。免费模型如Llama 3.3和GPT-OSS参与竞争，基础设施可自托管。

0 人收藏 0 人点赞

#model-evaluation

大型语言模型中的预填充意识

arXiv cs.AI ↗ · 2026-06-12 缓存

本文研究前沿语言模型能否检测其先前的助手消息被插入或编辑的情况（即预填充意识）。研究发现，像Claude Opus 4.5这样的模型表现出显著的预填充意识，能在不产生误报的情况下检测出高达35%的篡改预填充案例，这可能损害基于预填充的安全评估的有效性。

0 人收藏 0 人点赞

#model-evaluation

大语言模型可通过正确提示更好地捕捉人类判断

arXiv cs.CL ↗ · 2026-06-12 缓存

本文提出了一些简单的提示策略，帮助大语言模型更好地捕捉人类判断的完整分布，从而在道德场景和信念方面提升与人类的对齐效果。作者表明，让模型报告标准差和响应比例，同时确保场景清晰度，能够获得与人类反应更一致的结果。

0 人收藏 0 人点赞

#model-evaluation

无需先验的模型预测信息泄露盲检测

arXiv cs.LG ↗ · 2026-06-11 缓存

本文提出了一种决策理论框架，仅利用模型输出和结果来检测预测模型中的数据泄露，证明了某些泄露类型无需外部基准或训练代码即可识别。

0 人收藏 0 人点赞

#model-evaluation

项目反应缩放定律：一种用于高效且可泛化的神经缩放估计的测量理论方法

arXiv cs.LG ↗ · 2026-06-09 缓存

介绍项目反应缩放定律（IRSL），该定律整合项目反应理论，可高效估计神经缩放定律，将所需评估问题数量减少99.9%，同时达到相当准确性。

0 人收藏 0 人点赞

#model-evaluation

@auroter: Frontier AI 简直脑死亡。GPT5.5 xHigh 在 Codex 中认为我应该使用张量并行来部署 Qwen 3.6 27B 在我的系统上…

X AI KOLs Following ↗ · 2026-06-08 缓存

作者批评 Frontier AI（GPT5.5 xHigh）错误地建议对一个能单 GPU 容纳的模型使用张量并行，并宣布计划进行一场对决，比较多个 AI 模型（GPT5.5、Opus 4.8、Qwen 系列、Nemotron）在真实问题上的表现。

0 人收藏 0 人点赞

#model-evaluation

@jakevin7: 有个事挺有意思的。 DeepSeek V4 的技术报告，对所有主流大模型做了一轮横评，结论是——Gemini 3.1 Pro 的世界知识是所有模型里最强的。不是 GPT，不是 Claude，是 Gemini。但大家用 Gemini 的…

X AI KOLs Following ↗ · 2026-06-07 缓存

根据DeepSeek V4技术报告对主流大模型的横评，Gemini 3.1 Pro的世界知识被认为最强，但用户普遍觉得不好用，原因是该模型不主动调用搜索工具。

0 人收藏 0 人点赞

#model-evaluation

@0xLogicrw: 阿里通义实验室推出智能体评测基准 PawBench v1.0，首次将底座模型与运行框架纳入统一评测体系。评测针对 9 个大模型与 Hermes、OpenClaw、QwenPaw 三款框架进行交叉测试，包含 150 道真实任务与 4050 …

X AI KOLs Timeline ↗ · 2026-06-05 缓存

阿里通义实验室推出智能体评测基准PawBench v1.0，首次将底座模型与运行框架纳入统一评测体系，覆盖9个模型和3个框架，含150个任务，发现框架设计对智能体性能影响显著，并提出四项设计原则。

0 人收藏 0 人点赞

#model-evaluation

超越对齐：价值多样性作为多文化代理系统中的集体属性

Hugging Face Daily Papers ↗ · 2026-06-04 缓存

本文定义了文化多样性作为多代理系统的一个新评估维度，通过测量对世界价值观调查响应的成对差异。实验表明，当前模型缺乏人类社会的价值多样性，混合骨干可以提高对齐和多样性，但交互会减少多样性。

0 人收藏 0 人点赞

#model-evaluation

自我评估已然存在：用极少数据激发基础大语言模型中的潜在评判校准

Hugging Face Daily Papers ↗ · 2026-06-03 缓存

本文介绍了自我评估激发（SEE）方法，该方法通过校准耦合的强化学习和掩码蒸馏，用极少数据激发基础大语言模型中的潜在评判校准，在保持答案质量的同时提升了跨基准的校准效果。

0 人收藏 0 人点赞

#model-evaluation

opus 4.8 仍然非常盲目 - EyeBench-V3 视觉基准测试（类似于 IBench）

Reddit r/singularity ↗ · 2026-06-01

EyeBench-V3 视觉基准测试评估了 Claude Opus 4.8，发现它仍然无法完成基本视觉任务，这与 IBench 类似。该基准测试是通过 Adonis Singh 的 Twitter 帖子介绍的。

0 人收藏 0 人点赞

#model-evaluation

@rohit4verse: 两个月前，我写了《The Harness Is Everything》，获得130万观看。上周的Life-Harness论文：在126个模型环境中，有116个……

X AI KOLs Timeline ↗ · 2026-05-31 缓存

Life-Harness论文表明，仅通过修补评估框架而不修改模型，就能在126个设置中的116个提升性能，在18个骨干网络上实现88.5%的平均提升。

0 人收藏 0 人点赞

#model-evaluation

@nick_kango: 再加一个任务到我的推特基准测试集合里:) 对了，Opus 4.8 和所有 SOTA 模型都通过了，但我试的时候 Sonnet 4.6 和 Grok 4.3 没有通过…

X AI KOLs Timeline ↗ · 2026-05-30 缓存

Nick Kang 给他的推特基准测试集合新增了一个任务；Claude Opus 4.8 和其他 SOTA 模型通过了，而 Sonnet 4.6 和 Grok 4.3 失败了。Alfin 评论了 Opus 4.8 的危险能力。

0 人收藏 0 人点赞

#model-evaluation

Step 3.7 Flash 通过 Car Wash Test

Reddit r/LocalLLaMA ↗ · 2026-05-29

Step 3.7 Flash 模型已通过 Car Wash Test，表明在特定基准测试中评估成功。

0 人收藏 0 人点赞

model-evaluation

提交意见反馈