标签
Yann LeCun 指出,LLMs 在语言作为推理基础的领域(如数学和代码)中最强,但它们并非有创造力的数学家、软件架构师或计算机科学家。
Manim 是一个用 Python 驱动的动画引擎,专为数学解释视频设计,可精确控制 LaTeX 公式、几何变换和 3D 空间动画,广泛应用于 YouTube 教育视频和学术演示。
作者分享了一个Qwen3.6 27B的量化方案,该方案使模型使用显著更少的思考令牌,同时仍然产生正确的答案,从而在数学基准测试中实现更快的推理。
一篇介绍SU-01的论文,该模型为30B-A3B推理模型,通过反向困惑度课程、两阶段强化学习和测试时缩放,在IMO和IPhO问题上达到金牌级表现。
7款大模型在5道数学题上的基准测试;Qwen3.5 27B与35B A3B生成最长推理链,每题超10k tokens。