model-capabilities

#model-capabilities

能力前沿：基准测试遗漏了82%的模型性能

arXiv cs.AI ↗ · 5天前缓存

本文提出了能力前沿（Capability Frontier），这是一个针对模型的帕累托前沿，用于纠正单模型和单次运行评估中的偏差，表明标准基准测试遗漏了高达82%的模型性能，并且集体LLM能力被严重低估。

0 人收藏 0 人点赞

#model-capabilities

arXiv cs.AI ↗ · 2026-06-17 缓存

本文系统研究了推理时计算（token预算、上下文压缩、重复提交）如何影响前沿LLM在具有挑战性的基准上的性能，表明得分是协议相关的，并提倡评估应将能力表示为推理计算的函数。

0 人收藏 0 人点赞

#model-capabilities

TLDR AI ↗ · 2026-06-12 缓存

Saagar Pateder分析了人工智能在消费者和企业任务中的边际收益递减，并基于模型性能和成本的历史趋势，预测开源权重模型将在2029年前普及全球。

0 人收藏 0 人点赞

#model-capabilities

Reddit r/AI_Agents ↗ · 2026-05-16

一场讨论，质疑Anthropic和OpenAI的智能体实现有何特别之处，认为它们可能只是基础的ReAct循环配合工具使用，并询问与本地Ollama模型实现之间的差距。

0 人收藏 0 人点赞

#model-capabilities

X AI KOLs Following ↗ · 2026-05-10 缓存

一则推文提及AI研究员Sebastien Bubeck，暗示某些讨论中的能力需要使用像假想中的GPT-5.5这样的先进模型。

0 人收藏 0 人点赞