llm-benchmark

标签

Cards List
#llm-benchmark

人工智能中的政治偏见:各大AI模型立场分析

Hacker News Top · 3天前 缓存

对六大主流AI模型的政治倾向分析显示,在经济轴上,其中4个模型偏左,且部分模型未意识到自身的偏见。

0 人收藏 0 人点赞
#llm-benchmark

LLM时代:迷雾战争下大语言模型推理、外交与可靠性的战略1v1基准测试

arXiv cs.AI · 4天前 缓存

介绍Age of LLM,一个回合制1v1基准测试,LLM在带有战争迷雾和外交机制的网格上对战,评估推理、可靠性和战略规划能力。结果显示核速攻战术占主导,且可靠性与获胜之间存在弱关联。

0 人收藏 0 人点赞
#llm-benchmark

开源LLM基准测试每4小时运行147个编码任务,采用5次试验中位数及95%置信区间,并使用CUSUM进行变点检测。好奇大家对这种方法的看法。

Reddit r/AI_Agents · 2026-06-18

一个包含147个编码任务的开源LLM基准测试每4小时运行一次,采用5次试验中位数及95%置信区间,并使用CUSUM进行变点检测,引发了对其方法的讨论。

0 人收藏 0 人点赞
#llm-benchmark

Multi-LCB:将LiveCodeBench扩展到多种编程语言

Hugging Face Daily Papers · 2026-06-18 缓存

Multi-LCB 将 LiveCodeBench 基准扩展到十二种编程语言,以评估大型语言模型,同时保留污染控制机制,揭示了 Python 过拟合和语言特定的污染问题。

0 人收藏 0 人点赞
#llm-benchmark

我构建了一个2D物理竞技场,让LLM智能体在其中实时进行剑斗。结果发现,这出人意料地成为测试战术推理能力的绝佳方式。

Reddit r/AI_Agents · 2026-06-15

Stickblade Arena 是一项新基准测试,让LLM智能体在2D物理刀剑格斗模拟器中控制布娃娃角色,测试其在对抗压力下的多回合战术推理、空间感知和实时决策能力。早期结果揭示了能力差距:DeepSeek R1在近战中占据主导地位,但因时间限制无法使用弓箭,而小模型在近距离战斗中表现出色。

0 人收藏 0 人点赞
#llm-benchmark

MÖVE:德国公共部门的全面LLM基准

arXiv cs.CL · 2026-06-12 缓存

MÖVE 是一个全面的基准测试,用于评估德国公共部门中的大型语言模型,涵盖 39 个模型在十个德语数据集上的性能和治理标准。

0 人收藏 0 人点赞
#llm-benchmark

MTG Bench:测试LLM玩万智牌的能力

Hacker News Top · 2026-06-11 缓存

MTG Bench利用MCP服务器进行牌库操作,评估LLM玩《万智牌》的能力,展示了在复杂游戏动作中的成功与失败。

0 人收藏 0 人点赞
#llm-benchmark

AI能否像城市规划师一样推理?基于专业判断对大型语言模型进行基准测试

arXiv cs.CL · 2026-06-11 缓存

本文介绍了UPBench,这是一个基准测试,用于评估大型语言模型在城市规划知识方面的表现,涵盖四个知识支柱和五个认知层次。研究发现,模型在高阶分析任务上表现优于事实回忆,并识别出如监管幻觉和实践智慧缺失等认知局限。

0 人收藏 0 人点赞
#llm-benchmark

注意差距:前沿大语言模型能否通过标准办公能力考试?

arXiv cs.AI · 2026-06-10 缓存

本文介绍了OfficeEval,一个基于中国全国计算机等级考试(NCRE)的基准测试,用于评估大语言模型代理在复杂办公自动化任务上的表现。前沿模型在单轮交互中最高得分36.6%,在使用智能体系统时达到68.8%,远低于人类水平。

0 人收藏 0 人点赞
#llm-benchmark

这是一个llama.cpp CLI命令构建器。

Reddit r/LocalLLaMA · 2026-06-09 缓存

一个用于llama.cpp的静态Linux命令构建器,帮助构建CLI命令、运行基准测试并记录结果。

0 人收藏 0 人点赞
#llm-benchmark

我构建了一个1v1核战略游戏来基准测试LLM推理(而不仅仅是选择题)——Age of LLM

Reddit r/ArtificialInteligence · 2026-06-08

名为Age of LLM的新型开源基准通过回合制核战略游戏(包含战争迷雾、外交和虚张声势)来测试LLM推理,相较于传统的多项选择基准,提供了更动态的评估。

0 人收藏 0 人点赞
#llm-benchmark

Knowledge Index of Noah's Ark

arXiv cs.AI · 2026-06-04 缓存

KINA(Knowledge Index of Noah's Ark)是一个包含899个项目的LLM基准测试,覆盖261个细粒度学科。该基准引入形式化保证来确保学科代表性、通过奖金锦标赛实现激励对齐的标注,以及基于自助法的排名稳定性报告。评估42个模型后,表现最好的包括Gemini-3.1-Pro-Preview(53.17%)、Claude-Opus-4.6(49.92%)和GPT-5.4(48.55%),揭示了分层的而非平滑的排行榜结构。

0 人收藏 0 人点赞
#llm-benchmark

EHRBench:用于大语言模型临床决策的自动化可靠电子健康记录基准

arXiv cs.AI · 2026-06-01 缓存

EHRBench是一个自动化且可靠的基准测试,利用真实电子健康记录评估大语言模型在临床决策任务上的表现,涵盖诊断、治疗和预后任务,包含近100万个问答条目。

0 人收藏 0 人点赞
#llm-benchmark

宗教表征中的遗漏偏见:评估LLM在日常伦理决策中的回答

arXiv cs.LG · 2026-05-26 缓存

本文介绍了AllFaith宗教表征基准,用于衡量LLM在回答日常伦理问题时遗漏宗教观点的频率,发现模型相较于人类预期,低估了宗教的作用,尤其是在实际个人情境中。

0 人收藏 0 人点赞
#llm-benchmark

Antigravity 2.0 在OpenSCAD建筑3D LLM基准测试中登顶

Hacker News Top · 2026-05-22 缓存

ModelRift 对LLM进行了生成万神殿OpenSCAD代码的基准测试,Antigravity 2.0取得了最佳结果。

0 人收藏 0 人点赞
#llm-benchmark

MHGraphBench:基于知识图谱的大语言模型心理健康知识基准测试

arXiv cs.CL · 2026-05-18 缓存

本文介绍了MHGraphBench,这是一个基于知识图谱的基准测试,用于评估大语言模型在心理健康知识方面的能力,包括实体识别、关系判断和多跳推理。对15个LLM的实验揭示了识别能力与判断能力之间存在差距。

0 人收藏 0 人点赞
#llm-benchmark

SCICONVBENCH:在计算科学任务制定中基准测试LLMs的多轮澄清能力

Hugging Face Daily Papers · 2026-05-18 缓存

SCICONVBENCH是一个基准测试,用于评估LLMs在跨计算科学领域中对表述不清的科学查询进行多轮澄清的能力。研究发现,即使是顶尖模型也难以进行消歧,并且频繁做出隐性假设。

0 人收藏 0 人点赞
#llm-benchmark

哪个 AI 最接近你的政治观点?我用同样的 117 个问题测试了 100 多个大语言模型

Reddit r/ArtificialInteligence · 2026-05-13

一项独立分析对 100 多个大语言模型进行了 117 个政治问题的测试,以绘制其意识形态倾向图谱,结果显示 DeepSeek 和 Grok 偏向左翼,而大多数其他模型则聚集在中间或右翼。

0 人收藏 0 人点赞
#llm-benchmark

@dlouapre: 认识一下 physics-intern,我们为理论物理打造的智能体框架。它使 Gemini 3.1 Pro 在 Crit… 上的成绩从 17.7% 提升至 31.4%。

X AI KOLs Following · 2026-05-12

Physics-intern 是一个为理论物理设计的智能体框架,它将 Gemini 3.1 Pro 在 CritPt 基准测试上的表现从 17.7% 提升至 31.4%,达到了新的最优水平。

0 人收藏 0 人点赞
#llm-benchmark

我们使用 LLM 分析代码库中的每一个文件。所有人都认为这是出于成本考虑的一个愚蠢想法,但事实并非如此。

Reddit r/ArtificialInteligence · 2026-05-12

一项基准研究表明,使用 LLM 分析整个代码库具有成本效益。DeepSeek V4 Flash 因其低成本以及与 Claude Opus 等高端选项相当的准确率,被确定为最佳默认模型。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈