@LM_Braswell:已确认,LLMs现在比满屋子的狂热Anagram玩家还要厉害——你能找出最后一个I应该放在哪里吗?

X AI KOLs Following 论文

摘要

最近的评估显示,LLMs已经超越了满屋子精通Anagram的玩家。

已确认,LLMs现在比满屋子的狂热Anagram玩家还要厉害——你能找出最后一个I应该放在哪里吗? https://t.co/s1NAMImYP7
查看原文
查看缓存全文

缓存时间: 2026/06/10 21:55

已证实,大语言模型现在比一屋子狂热的字谜玩家强多了——你能看出最后一个 I 该放在哪吗?https://t.co/s1NAMImYP7

相似文章

LLM团队能玩‘What? Where? When?’吗?

arXiv cs.CL

本文研究了在问答游戏‘What? Where? When?’(ChGK)中,基于团队协作的交互是否能提升LLM的表现。通过在2025年发布的572道问题的数据集上使用六个最新的开源LLM,他们展示了团队策略(投票、沉默队长、健谈队长)比单个模型高出最多20个百分点,最佳团队达到了44.23%的准确率,接近人类水平。

基准是否低估了 LLM 的性能?采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测

arXiv cs.CL

本文通过采用以大语言模型为先、人工仲裁的评估方法重新评估幻觉检测数据集,研究了标准基准是否低估了大语言模型(LLM)的性能。研究发现,在仲裁过程中融入大语言模型的推理能力可以提高评估的一致性,并表明针对容易产生歧义的任务,采用模型辅助的重新评估能产生更可靠的基准。