来了:Benchmark-Yourself 应用——与开源 LLM 竞争并获得分数——提供5个基准测试——将结果添加到简历或 LinkedIn(如果你敢的话)...或者直接粘贴到下面接受社区吐槽。
摘要
一个网络应用,允许用户将自己的表现与开源 LLM 在五个基准测试上进行对比,并可以选择将结果添加到简历或 LinkedIn。
[https://benchmark-yourself.streamlit.app/](https://benchmark-yourself.streamlit.app/) BBQ 就是🔥 * 规则4:限制自我推广——这不是自我推广 * 十分之一规则是一个好的指导:自我推广不应超过内容的10%。——我的内容高质量且多样化 * 必须披露关联:严禁刷互动,严禁“我发现了这个..”等。——我与 streamline 或 oMLX 或任何东西无关。
相似文章
CollabBench:通过主动参与与多样玩家基准测试并释放LLM协作能力
CollabBench是一个新的基准测试,用于评估和训练LLM智能体在合作游戏中的表现,具有多样玩家模拟和协作训练范式。实验表明,与基础模型相比,效率提高19.5%,情感性能提升24.4%。
元认知监测电池:LLM自我监测的跨域基准
一个包含524个项目的新型跨域基准(元认知监测电池)使用人类心理测量方法评估LLM在六个认知领域的自我监测能力。应用于20个前沿LLM后,揭示了三种不同的元认知配置,并表明准确率排名与元认知敏感性排名基本相反。
我制作了一个小型开源基准测试运行器,用于在我自己的真实工作流中测试OpenClaw智能体。
一位开发者分享了一个个人开源基准测试运行器,用于在真实、混乱的工作流程中测试 OpenClaw 代理。该工具允许用户定义私有评估案例,在实际工作空间中运行代理,并生成报告,旨在提供比公共基准测试更相关的信号。
CulturALL:评测大模型多语言多文化能力的实景基准
CulturALL 发布含 2,610 条样本、覆盖 14 种语言和 51 个地区的实景基准,用于检验大模型在真实文化场景下的表现;目前最佳模型仅得 44.48%,提升空间巨大。
@KLieret: 你可以自己在 ProgramBench 上进行评估:https://github.com/facebookresearch/ProgramBench/… 我们将开放排行榜…
ProgramBench 是一个新的基准测试,用于测试 AI 智能体从编译后的二进制文件及其文档中重建完整代码库的能力。排行榜即将开放提交。