model-capabilities

标签

Cards List
#model-capabilities

能力前沿:基准测试遗漏了82%的模型性能

arXiv cs.AI · 5天前 缓存

本文提出了能力前沿(Capability Frontier),这是一个针对模型的帕累托前沿,用于纠正单模型和单次运行评估中的偏差,表明标准基准测试遗漏了高达82%的模型性能,并且集体LLM能力被严重低估。

0 人收藏 0 人点赞
#model-capabilities

推理计算如何影响前沿LLM的评估

arXiv cs.AI · 2026-06-17 缓存

本文系统研究了推理时计算(token预算、上下文压缩、重复提交)如何影响前沿LLM在具有挑战性的基准上的性能,表明得分是协议相关的,并提倡评估应将能力表示为推理计算的函数。

0 人收藏 0 人点赞
#model-capabilities

Mythos-class 模型将在2029年前扩散至全球(7分钟阅读)

TLDR AI · 2026-06-12 缓存

Saagar Pateder分析了人工智能在消费者和企业任务中的边际收益递减,并基于模型性能和成本的历史趋势,预测开源权重模型将在2029年前普及全球。

0 人收藏 0 人点赞
#model-capabilities

Anthropic和OpenAI声称,他们的模型强大到足以“突破”其沙盒……但他们的智能体实现到底有何特别之处?

Reddit r/AI_Agents · 2026-05-16

一场讨论,质疑Anthropic和OpenAI的智能体实现有何特别之处,认为它们可能只是基础的ReAct循环配合工具使用,并询问与本地Ollama模型实现之间的差距。

0 人收藏 0 人点赞
#model-capabilities

@SebastienBubeck:他所谈论的不可能在GPT-5.5之前实现

X AI KOLs Following · 2026-05-10 缓存

一则推文提及AI研究员Sebastien Bubeck,暗示某些讨论中的能力需要使用像假想中的GPT-5.5这样的先进模型。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈