@LM_Braswell：已确认，LLMs现在比满屋子的狂热Anagram玩家还要厉害——你能找出最后一个I应该放在哪里吗？

X AI KOLs Following 2026/06/10 02:57 论文

llm anagram benchmark ai-performance

摘要

最近的评估显示，LLMs已经超越了满屋子精通Anagram的玩家。

已确认，LLMs现在比满屋子的狂热Anagram玩家还要厉害——你能找出最后一个I应该放在哪里吗？ https://t.co/s1NAMImYP7

查看原文

查看缓存全文

缓存时间: 2026/06/10 21:55

已证实，大语言模型现在比一屋子狂热的字谜玩家强多了——你能看出最后一个 I 该放在哪吗？https://t.co/s1NAMImYP7

相似文章

LLM团队能玩‘What? Where? When?’吗？

arXiv cs.CL

本文研究了在问答游戏‘What? Where? When?’（ChGK）中，基于团队协作的交互是否能提升LLM的表现。通过在2025年发布的572道问题的数据集上使用六个最新的开源LLM，他们展示了团队策略（投票、沉默队长、健谈队长）比单个模型高出最多20个百分点，最佳团队达到了44.23%的准确率，接近人类水平。

LLM能否遵守严格的二维空间约束？（使用推箱子游戏进行测试）

Reddit r/LocalLLaMA

一项基准测试评估了LLMs在带有格式约束的严格推箱子谜题上的表现，发现只有ChatGPT、Qwen3.7-max和Gemini 3.5-thinking成功，而其他模型因非法移动或格式错误而失败。

@stevibe：哪些大模型真的“热爱思考”？实测7款模型5道数学题，推理长度大比拼。思考冠军：bo…

X AI KOLs Timeline

7款大模型在5道数学题上的基准测试；Qwen3.5 27B与35B A3B生成最长推理链，每题超10k tokens。

LLM时代：迷雾战争下大语言模型推理、外交与可靠性的战略1v1基准测试

arXiv cs.AI

介绍Age of LLM，一个回合制1v1基准测试，LLM在带有战争迷雾和外交机制的网格上对战，评估推理、可靠性和战略规划能力。结果显示核速攻战术占主导，且可靠性与获胜之间存在弱关联。

基准是否低估了 LLM 的性能？采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测

arXiv cs.CL

本文通过采用以大语言模型为先、人工仲裁的评估方法重新评估幻觉检测数据集，研究了标准基准是否低估了大语言模型（LLM）的性能。研究发现，在仲裁过程中融入大语言模型的推理能力可以提高评估的一致性，并表明针对容易产生歧义的任务，采用模型辅助的重新评估能产生更可靠的基准。

提交意见反馈