标签
本文对 Muon 优化器的几何依据提出了挑战,认为精确的几何结构不如步长最优性重要。文章引入了 Freon 和 Kaon 优化器,以证明随机或反转谱的性能与 Muon 相当。
作者讨论了高等数学教科书中缺乏详细且完整证明的问题,这为学生和专业人士造成了不必要的障碍,并倡导编写更易理解的配套笔记。
本文介绍了 NARRA-Gym,这是一个基准和可执行评估环境,用于评估大型语言模型在多轮对话中维持交互式叙事、管理记忆以及适应用户的能力。
The article details Dr. Mushtaq Bilal's guide on using Claude Code as a workflow engine for long-term academic research, outlining five key modules including file organization, subagents, and automation hooks.
哈佛大学的一篇研究论文提出了 Recoding-Decoding (RD),这是一种新型解码方案,通过注入随机引导短语和偏转 token 来挖掘 LLM 的长尾知识,在无需微调的情况下显著提升输出多样性。该方法在保持高相关性的同时缓解了回复同质化问题,且模型能力越强,多样性提升越明显。
本文介绍了CASPO框架,该框架通过迭代直接偏好优化(DPO),将token级别的置信度与大型推理模型中的逐步逻辑正确性进行对齐。文章还提出了置信度感知思考(CaT),用于在推理过程中动态剪枝不确定的推理分支,以提高可靠性和效率。
本文引入了 SCALAR 框架,这是一个结构化的批评者-执行者循环框架,旨在评估人工智能智能体之间不同的交互模式如何提升理论物理问题的推理能力。
本文提出了一种针对封闭大型语言模型(LLM)的新型数据集水印方法。该方法利用词对共现模式,能够以可证明的方式检测模型训练是否使用了专有数据,即使这些数据在训练数据集中仅占极小比例。
Paper PPT Agent 是一个开源的多智能体协作工具,能够将学术论文 PDF 或 LaTeX 源码自动转换为可编辑的 PowerPoint 演示文稿,包含内容提炼、版式设计及视觉质量审查功能。
一套为 Claude Code 设计的插件套件,协助学术研究者在从研究到发表的全流程中提供支持,强调人类在环(human-in-the-loop)的完整性校验和风格校准。
一款专为 Claude Code 设计的全新开源 10 阶段 AI 研究系统插件,自动化了文献综述、引用验证和同行评审模拟。它通过事实核查和模拟批判性反馈,声称能够以极低的成本生成高质量的学术初稿。
Claude Code 的一个全新开源插件提供了一套10阶段的学术研究流程,能够处理参考文献搜集、引用验证和模拟同行评审,同时保持用户的写作风格。
本文介绍了 LaTA,这是一个开源、符合 FERPA 标准的本地 LLM 自动评分系统,专为高阶 STEM 课程设计,可在本地硬件上运行。论文报告了在俄勒冈州立大学的成功部署,显示学生成绩有所提高,且评分准确率极高。
麻省理工学院的一项研究表明,企业经常利用自动化来取代那些享有“工资溢价”的工人,而非为了最大化生产率。这一做法显著加剧了收入不平等,并限制了整体经济增长。
研究人员推出了 x1,这是一类推理模型家族,能够针对每个具体实例自适应地选择最优语言进行推理,证实了在多语言及文化相关任务中,语言选择会对推理质量产生影响。
这项发表于arXiv的学术研究考察了ChatGPT-4在阿英文学散文互译中的表现,研究涵盖30名专业译者对AI生成译文的评估与后编辑工作。研究发现,尽管AI显著提升了翻译速度,但在处理文化内涵、文体特征与修辞表达方面,人工后编辑依然不可或缺。研究倡导采用“人机协作”模式,而非追求全自动化。
作者发布了 Universal NER v2,这是一篇将在 LREC 2026 发表的命名实体识别论文,刻意回避了当代的“规模扩张+工具调用”潮流。
本文分析了一篇近期发表的学术论文,该论文为模仿学习算法提供了一个分类框架,通过矩匹配技术对这些算法进行分类,并分析其理论模仿差距界限。