来了：Benchmark-Yourself 应用——与开源 LLM 竞争并获得分数——提供5个基准测试——将结果添加到简历或 LinkedIn（如果你敢的话）...或者直接粘贴到下面接受社区吐槽。

Reddit r/LocalLLaMA 2026/05/28 22:39 工具

摘要

一个网络应用，允许用户将自己的表现与开源 LLM 在五个基准测试上进行对比，并可以选择将结果添加到简历或 LinkedIn。

[https://benchmark-yourself.streamlit.app/](https://benchmark-yourself.streamlit.app/) BBQ 就是🔥 * 规则4：限制自我推广——这不是自我推广 * 十分之一规则是一个好的指导：自我推广不应超过内容的10%。——我的内容高质量且多样化 * 必须披露关联：严禁刷互动，严禁“我发现了这个..”等。——我与 streamline 或 oMLX 或任何东西无关。

查看原文

相似文章

CollabBench：通过主动参与与多样玩家基准测试并释放LLM协作能力

arXiv cs.CL

CollabBench是一个新的基准测试，用于评估和训练LLM智能体在合作游戏中的表现，具有多样玩家模拟和协作训练范式。实验表明，与基础模型相比，效率提高19.5%，情感性能提升24.4%。

元认知监测电池：LLM自我监测的跨域基准

arXiv cs.CL

一个包含524个项目的新型跨域基准（元认知监测电池）使用人类心理测量方法评估LLM在六个认知领域的自我监测能力。应用于20个前沿LLM后，揭示了三种不同的元认知配置，并表明准确率排名与元认知敏感性排名基本相反。

我制作了一个小型开源基准测试运行器，用于在我自己的真实工作流中测试OpenClaw智能体。

Reddit r/openclaw

一位开发者分享了一个个人开源基准测试运行器，用于在真实、混乱的工作流程中测试 OpenClaw 代理。该工具允许用户定义私有评估案例，在实际工作空间中运行代理，并生成报告，旨在提供比公共基准测试更相关的信号。

CulturALL：评测大模型多语言多文化能力的实景基准

arXiv cs.CL

CulturALL 发布含 2,610 条样本、覆盖 14 种语言和 51 个地区的实景基准，用于检验大模型在真实文化场景下的表现；目前最佳模型仅得 44.48%，提升空间巨大。

@KLieret: 你可以自己在 ProgramBench 上进行评估：https://github.com/facebookresearch/ProgramBench/… 我们将开放排行榜…

X AI KOLs Following

ProgramBench 是一个新的基准测试，用于测试 AI 智能体从编译后的二进制文件及其文档中重建完整代码库的能力。排行榜即将开放提交。

相似文章

CollabBench：通过主动参与与多样玩家基准测试并释放LLM协作能力

元认知监测电池：LLM自我监测的跨域基准

我制作了一个小型开源基准测试运行器，用于在我自己的真实工作流中测试OpenClaw智能体。

CulturALL：评测大模型多语言多文化能力的实景基准

@KLieret: 你可以自己在 ProgramBench 上进行评估：https://github.com/facebookresearch/ProgramBench/… 我们将开放排行榜…

提交意见反馈