标签
一条推文分享了一个洞见:在数学、编程或硬技能上遇到困难,通常是因为缺少前置知识,而不是缺乏天赋,从而鼓励学习者填补这些空白。
Kyle Kabasares 声称使用 OpenAI 的 ChatGPT-5.5 Pro 生成了一个候选反例,针对 Don Knuth 的《计算机程序设计艺术》中的一个未解决问题,并请求验证。
本文提出了一种轻量级的基于块策略漂移门控方法,通过根据新旧学生概率变化对损失进行加权,改进了语言模型的在线策略蒸馏,在数学基准上取得了更高的推理准确性。
作者使用数学SDF在Shader Toy中创建了一个由砖块和砂浆组成的塔,实现了圆周和垂直重复以及随机化。
一个开源项目,提供503节课,分为20个阶段,在引入任何框架之前,从原始数学基础开始教授每个算法。
VibeThinker-3B模型在数学和编程推理性能上达到了最先进水平,在AIME'26上得分为94.3,在未见过的LeetCode问题上正确率为96.1%,表明小模型在可验证领域可以达到前沿推理水平。
VibeThinker-3B 是一个拥有 3B 参数的模型,通过优化 Spectrum-to-Signal Principle (SSP) 后训练流程,在数学、编程和 STEM 基准测试上实现了前沿水平的推理性能,达到了与更大模型相当的性能。
edulab 新增解析几何题类型,支持随机出题、动态几何画板(2D Canvas 绘制曲线、动直线、动点、向量等)及 KaTeX 分步解析,是一个开源教育技能工具更新。
一篇关于主成分分析(PCA)的简短数学文章,解释了概念及其应用。
来自哈德斯菲尔德大学的178页调查研究,涵盖数学和生成式AI基础,标题为《生成式AI基础小书》。
识别了在线策略蒸馏中的监督保真度衰减(SFD),即随着学生序列变长,教师监督质量下降,并提出了前瞻组奖励(LGR)以缓解SFD,从而提升数学和代码基准测试的性能。
对AI导师Koji的批评,突出了其数学教学方法的缺陷,例如允许学生毫无指导地摸索,以及遗漏关键的概念性解释。
Anthropic的新AI模型Claude Mythos,使用Claude Code框架,据报道在OpenAI先前证伪之后,通过找到替代的简单证明,解决了Erdős的不同距离问题。这展示了LLMs进行独立科学突破的能力。
一个帖子强调了两个独立的见解:一位谷歌研究员发现,在提示中添加‘你是麻省理工数学家’可以修复大语言模型中的数学错误,而Alex Albert解释了Anthropic如何训练Claude的个性。这两个资源都是免费的,深入探讨了大语言模型的实际工作原理。
HRM-Text 引入了一种分层循环模型,将计算解耦为慢速和快速层级,使得仅使用400亿个token和1500美元预算即可从头开始高效预训练,实现了与更大模型竞争的性能。
本文提出了一种方法,利用较弱模型提供的错配错误草稿,通过GRPO在较强学习器中引发更优推理,在Mathstral-7B上的MATH-500和AIME基准测试中取得了最先进的结果。