标签
解读 OpenAI 研究员 Noam Brown 的观点:LLM 的真实能力天花板远高于当前基准测试显示的水平,因为 test-time compute 投入不足,而更强的模型从额外计算中获益更大。这对 AI 安全评估提出了严峻挑战,因为许多危险能力可能只在长时间、高计算预算下才显现。
提出UniScale,一种在线框架,通过上下文多臂老虎机优化统一模型路由和测试时扩展,以在LLM推理中实现更好的质量-成本权衡。
本文介绍了反思增强缩放(RAS)方法,该方法利用失败Cypher查询的执行反馈,通过上下文学习迭代优化查询生成,在多个数据集和模型上将执行错误率降低了41-50%。
介绍了Ethical Immanence,一种新型AI对齐范式,通过损失函数正则化和元认知检测将道德行为嵌入模型架构,为开源LLM带来更低成本和内在稳定性。
本文研究了语言模型后训练期间输出多样性崩溃的位置和原因,分析了三个 OLMo 3 训练线(Think、Instruct、RL-Zero)在多个任务和指标上的表现。研究发现多样性崩溃主要由训练数据组成决定,并在训练期间嵌入到模型权重中,仅通过推理时调整无法解决。
一篇回顾 DSPy 框架架构的帖子,该框架围绕签名、模块和优化器构建,并指出它自 2022 年以来仍在持续增长。
# 论文页面 - (1D) 有序词元实现高效测试时搜索 来源:[https://huggingface.co/papers/2604.15453](https://huggingface.co/papers/2604.15453) ## 摘要 具有“粗到细”词元结构的自回归模型在测试时扩展上表现更佳,并在与图文验证器结合后,实现无需训练的文本到图像生成。 [词元化](https://huggingface.co/papers?q=Tokenization) 是自回归(AR)生成模型的关键组件,将原始