inference-scaling

#inference-scaling

@Phoenixyin13: 认真读完了OpenAI 研究员 Noam Brown 今天的长帖，一个被行业严重低估的现实。 LLM 的真实能力天花板，远高于当前任何 benchmark 所显示的水平。原因，是给它的test-time compute太少了。而随着模型…

X AI KOLs Timeline ↗ · 2026-06-09 缓存

解读 OpenAI 研究员 Noam Brown 的观点：LLM 的真实能力天花板远高于当前基准测试显示的水平，因为 test-time compute 投入不足，而更强的模型从额外计算中获益更大。这对 AI 安全评估提出了严峻挑战，因为许多危险能力可能只在长时间、高计算预算下才显现。

0 人收藏 0 人点赞

#inference-scaling

UniScale: 通过模型路由与测试时扩展的在线联合优化实现自适应统一推理扩展

arXiv cs.AI ↗ · 2026-06-01 缓存

提出UniScale，一种在线框架，通过上下文多臂老虎机优化统一模型路由和测试时扩展，以在LLM推理中实现更好的质量-成本权衡。

0 人收藏 0 人点赞

#inference-scaling

RAS：基于上下文学习的反思增强缩放方法用于可执行Cypher查询生成

arXiv cs.CL ↗ · 2026-05-25 缓存

本文介绍了反思增强缩放（RAS）方法，该方法利用失败Cypher查询的执行反馈，通过上下文学习迭代优化查询生成，在多个数据集和模型上将执行错误率降低了41-50%。

0 人收藏 0 人点赞

#inference-scaling

全新AI范式：Ethical Immanence

Reddit r/ArtificialInteligence ↗ · 2026-05-13

介绍了Ethical Immanence，一种新型AI对齐范式，通过损失函数正则化和元认知检测将道德行为嵌入模型架构，为开源LLM带来更低成本和内在稳定性。

0 人收藏 0 人点赞

#inference-scaling

输出多样性在后训练中的崩溃发生在哪里？

arXiv cs.CL ↗ · 2026-04-20 缓存

本文研究了语言模型后训练期间输出多样性崩溃的位置和原因，分析了三个 OLMo 3 训练线（Think、Instruct、RL-Zero）在多个任务和指标上的表现。研究发现多样性崩溃主要由训练数据组成决定，并在训练期间嵌入到模型权重中，仅通过推理时调整无法解决。

0 人收藏 0 人点赞

#inference-scaling

@DSPyOSS：说到底就是签名（规范）、模块（“测试台”、“推理扩展”）和优化器（学习算法…

X AI KOLs Following ↗ · 2026-04-20 缓存

一篇回顾 DSPy 框架架构的帖子，该框架围绕签名、模块和优化器构建，并指出它自 2022 年以来仍在持续增长。

0 人收藏 0 人点赞

#inference-scaling

(1D) 有序词元实现高效测试时搜索

Hugging Face Daily Papers ↗ · 2026-04-16 缓存

# 论文页面 - (1D) 有序词元实现高效测试时搜索来源：[https://huggingface.co/papers/2604.15453](https://huggingface.co/papers/2604.15453) ## 摘要具有“粗到细”词元结构的自回归模型在测试时扩展上表现更佳，并在与图文验证器结合后，实现无需训练的文本到图像生成。 [词元化](https://huggingface.co/papers?q=Tokenization) 是自回归（AR）生成模型的关键组件，将原始

0 人收藏 0 人点赞

inference-scaling

@Phoenixyin13: 认真读完了OpenAI 研究员 Noam Brown 今天的长帖，一个被行业严重低估的现实。 LLM 的真实能力天花板，远高于当前任何 benchmark 所显示的水平。 原因，是给它的test-time compute太少了。而随着模型…

UniScale: 通过模型路由与测试时扩展的在线联合优化实现自适应统一推理扩展

RAS：基于上下文学习的反思增强缩放方法用于可执行Cypher查询生成

全新AI范式：Ethical Immanence

输出多样性在后训练中的崩溃发生在哪里？

@DSPyOSS：说到底就是签名（规范）、模块（“测试台”、“推理扩展”）和优化器（学习算法…

(1D) 有序词元实现高效测试时搜索

提交意见反馈

@Phoenixyin13: 认真读完了OpenAI 研究员 Noam Brown 今天的长帖，一个被行业严重低估的现实。 LLM 的真实能力天花板，远高于当前任何 benchmark 所显示的水平。原因，是给它的test-time compute太少了。而随着模型…