reasoning-models

#reasoning-models

BitCal-TTS：面向量化推理模型的比特校准测试时扩展

arXiv cs.AI ↗ · 昨天缓存

本文介绍了 BitCal-TTS，这是一种运行时控制器，通过在测试时扩展期间校准置信度信号，提高了量化推理模型的准确性并减少了过早终止的问题。

0 人收藏 0 人点赞

#reasoning-models

语言模型中的评估意识对行为的影响有限

arXiv cs.CL ↗ · 昨天缓存

本文探讨了大型推理模型中的言语化评估意识（VEA）是否对其在安全性、对齐、道德推理和政治观点基准测试中的行为产生因果影响。研究发现，VEA 对行为的影响有限：注入 VEA 产生的效应接近于零，而移除 VEA 仅导致微小偏移。这表明，不应将高 VEA 发生率视为战略性行为或对齐篡改的有力证据。

0 人收藏 0 人点赞

#reasoning-models

@dbreunig: 推理模型擅长理解细微差别和自然语言。但这种细微之处尚未渗透到检索系统…

X AI KOLs Following ↗ · 3天前缓存

一条推文强调，尽管推理模型在理解细微差别和自然语言方面表现出色，但这种能力尚未传导到检索系统，指出了AI系统的一个关键瓶颈。

0 人收藏 0 人点赞

#reasoning-models

当答案未出，安全先溃：评测推理链中的有害行为检测

arXiv cs.CL ↗ · 2026-04-22 缓存

研究者发布 HarmThoughts 基准，含 1,018 条推理轨迹、56,931 句细粒度标注，用于逐步评估有害行为如何在推理过程中浮现，并揭示现有检测器对微妙不安全推理转折的盲区。

0 人收藏 0 人点赞

#reasoning-models

TEMPO：为大推理模型扩展测试时训练

Hugging Face Daily Papers ↗ · 2026-04-21 缓存

TEMPO 提出一种测试时训练框架，在策略微调与评判器再校准之间交替，防止多样性崩塌并持续放大推理模型的性能，将 Qwen3-14B 在 AIME 2024 上的得分从 42.3% 提升至 65.8%。

0 人收藏 0 人点赞

#reasoning-models

何时信任工具？工具集成数学推理的自适应工具信任校准

arXiv cs.CL ↗ · 2026-04-20 缓存

本文介绍了自适应工具信任校准（ATTC）框架，该框架通过使工具集成推理模型能够根据代码置信度得分自适应地决定是否相信或忽视工具结果，从而改进了这些模型。该方法解决了模型错误地忽视正确工具输出的"工具被忽视"问题，在多个模型和数据集上实现了4.1%-7.5%的性能提升。

0 人收藏 0 人点赞

#reasoning-models

ATTNPO: 用于高效推理的注意力引导过程监督

arXiv cs.CL ↗ · 2026-04-20 缓存

ATTNPO 引入了一个注意力引导的过程监督框架，通过利用内在的注意力信号进行步级信用分配，减少大型推理模型的过度思考，在 9 个基准测试中实现了更好的性能和更短的推理长度。

0 人收藏 0 人点赞

#reasoning-models

大规模推理模型（尚）不是多语言潜在推理器

arXiv cs.CL ↗ · 2026-04-20 缓存

本文研究了大规模推理模型在11种语言上的多语言潜在推理能力，发现虽然存在潜在推理能力，但分布不均——在资源丰富的语言中较强，在低资源语言中较弱。研究发现，尽管表面存在差异，但内部推理机制在很大程度上与英语中心的路径保持一致。

0 人收藏 0 人点赞

#reasoning-models

多语言思维，而非更难的思维：教授推理模型代码切换的数据高效框架

arXiv cs.CL ↗ · 2026-04-20 缓存

本文介绍了一个数据高效的微调框架，用于教授推理模型有效地进行代码切换（混合使用多种语言），证明了战略性的代码切换可以提升低资源语言的推理能力。该工作分析了大型语言模型在不同语言、任务和领域中的代码切换行为，并开发了促进有益代码切换模式的干预措施。

0 人收藏 0 人点赞

#reasoning-models

如何微调推理模型？一个教师-学生协作框架用于合成学生一致的SFT数据

Hugging Face Daily Papers ↗ · 2026-03-23 缓存

本文介绍了TESSY，一种用于微调推理模型的教师-学生协作框架。该框架通过将生成过程解耦为能力令牌（来自教师）和风格令牌（来自学生），生成符合在线策略的SFT数据，从而解决了使用离线策略教师数据时的灾难性遗忘问题。

0 人收藏 0 人点赞

#reasoning-models

推理模型难以控制其思维链，但这其实是好事

OpenAI Blog ↗ · 2026-03-05 缓存

OpenAI的研究人员研究了推理模型是否能故意隐藏其思维链以逃避监控，发现当前模型即使知道自己被监控，也难以控制自己的推理过程。他们推出了CoT-Control，一个包含超过13,000个任务的开源评估套件，用于衡量推理模型中思维链的可控性。

0 人收藏 0 人点赞

#reasoning-models

评估思维链的可监控性

OpenAI Blog ↗ · 2025-12-18 缓存

OpenAI研究人员引入了一个框架和一套包含13项评估的系统，用于衡量大型语言模型中思维链的可监控性。研究发现，监控推理过程比仅监控输出有效得多，这为AI安全及规模化监督提供了重要启示。

0 人收藏 0 人点赞

#reasoning-models

推出 gpt-oss-safeguard

OpenAI Blog ↗ · 2025-10-29 缓存

OpenAI 发布 gpt-oss-safeguard，这是用于安全分类任务的开源权重推理模型，提供 120B 和 20B 两种规格，采用 Apache 2.0 许可证。这些模型使用链式思维推理，在推理时根据开发者提供的策略对内容进行分类，实现灵活且可解释的内容审核。

0 人收藏 0 人点赞

#reasoning-models

gpt-oss-safeguard 技术报告

OpenAI Blog ↗ · 2025-10-29 缓存

OpenAI 发布了 gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b，这两个开放权重推理模型专为基于策略的内容分类而设计，具有完整的思维链推理能力。技术报告提供了基准安全评估，展示了模型在 Apache 2.0 许可证下的内容标签任务能力。

0 人收藏 0 人点赞

#reasoning-models

OpenAI o3 和 o4-mini 系统卡

OpenAI Blog ↗ · 2025-04-16 缓存

OpenAI 发布了 o3 和 o4-mini 模型的系统卡，这些模型具有先进的推理能力，结合了工具集成（网络浏览、Python、图像分析等），并根据 OpenAI 的 Preparedness Framework v2 在生物、网络安全和 AI 自我改进等领域进行了安全性评估。

0 人收藏 0 人点赞

#reasoning-models

利用 OpenAI 加速工程周期 20%

OpenAI Blog ↗ · 2025-03-06 缓存

Factory 推出了一个命令中心，用于软件开发，利用 OpenAI 的 o1、o3-mini 和 GPT-4o 推理模型，将工程周期加速 20-400%，将上下文切换减少 60%，并通过开发生命周期中的 AI 驱动代码理解和推理为开发人员每周提供 10 多小时的时间。

0 人收藏 0 人点赞

#reasoning-models

OpenAI o3-mini 系统卡

OpenAI Blog ↗ · 2025-01-31 缓存

OpenAI 发布了 o3-mini 系统卡，记录了其通过强化学习训练的高级推理模型的安全评估和风险评估。该模型在某些基准测试中达到了最先进的安全性能，在 OpenAI 的《准备框架》下总体被列为中等风险。

0 人收藏 0 人点赞

#reasoning-models

用推理时计算换取对抗鲁棒性

OpenAI Blog ↗ · 2025-01-22 缓存

OpenAI 提出证据表明，像 o1 这样的推理模型在获得更多推理时计算来进行更深入思考时，对对抗攻击的抵抗力会增强。这项研究表明，增加计算量可以降低多种任务类型（包括数学、事实性和对抗性图像）的攻击成功率，尽管仍存在一些显著的例外。

0 人收藏 0 人点赞

reasoning-models

提交意见反馈