来了:Benchmark-Yourself 应用——与开源 LLM 竞争并获得分数——提供5个基准测试——将结果添加到简历或 LinkedIn(如果你敢的话)...或者直接粘贴到下面接受社区吐槽。

Reddit r/LocalLLaMA 工具

摘要

一个网络应用,允许用户将自己的表现与开源 LLM 在五个基准测试上进行对比,并可以选择将结果添加到简历或 LinkedIn。

[https://benchmark-yourself.streamlit.app/](https://benchmark-yourself.streamlit.app/) BBQ 就是🔥 * 规则4:限制自我推广——这不是自我推广 * 十分之一规则是一个好的指导:自我推广不应超过内容的10%。——我的内容高质量且多样化 * 必须披露关联:严禁刷互动,严禁“我发现了这个..”等。——我与 streamline 或 oMLX 或任何东西无关。
查看原文

相似文章

元认知监测电池:LLM自我监测的跨域基准

arXiv cs.CL

一个包含524个项目的新型跨域基准(元认知监测电池)使用人类心理测量方法评估LLM在六个认知领域的自我监测能力。应用于20个前沿LLM后,揭示了三种不同的元认知配置,并表明准确率排名与元认知敏感性排名基本相反。