标签
埃隆·马斯克宣布一项新的X功能:与误导性帖子互动且该帖子后续被Community Notes纠正的用户,将收到一条包含纠正内容的𝕏聊天消息,以消除误解。
Anthropic发布了一项更正,澄清Claude Opus 4的约3倍平均加速时间点为2025年5月,而非2024年5月,并且2024年5月的早期模型在回测评估中未显示出任何加速。
更正说明:RTX Spark 没有 600GB/s 带宽;该数字实际上是 NvLink 速度,如 Computex 幻灯片所示。
Department of War 发布的更正澄清,SpaceX 仍然是一个强大且宝贵的合作伙伴,驳斥了一篇新闻文章中的虚假说法。
本文研究了大型语言模型在临床环境中面对对抗性压力时如何维持正确信念,提出了R-FT微调方法以在平衡可纠正性的同时提升认知韧性,并在医学基准测试中展示了显著的鲁棒性提升。
提出了面向纠正的策略优化(CIPO),这是对RLVR的一种扩展,它将失败轨迹转化为面向纠正的监督信号,从而在数学和代码基准测试中提升LLM的推理与纠错能力。
提出一种免训练推理时方法,用于VLA模型校正步调与路径动态,在动态环境中将成功率最高提升28.8%。