标签
微软与约克大学的一篇论文指出,由于实验设计存在缺陷,将类人属性归因于LLM是有问题的,并以《帝国时代II》为例说明测量问题。
本文揭示了机器生成文本中隐藏的类人片段的存在,并提出了一种与模型无关的堆叠增强框架,通过减少这些片段的影响来改进现有检测器。
训练了基于Transformer的国际象棋模型,覆盖从800到2500+的等级分区间,能预测着法、思考时间和结果。仅用9M参数即达到较高准确率,并包含一个新颖的思考时间预测组件。
Andreas Påhlsson-Notini 批评当前 AI agent 表现出令人沮丧的“人性”——注意力涣散、来回讨价还价。