标签
本文提出一种五臂消融方法论,用于诊断检索预热能量基推理(RW-EBR)中哪个组件驱动性能提升,应用于图可达性和数独等结构推理任务。该方法分离了类先验偏差、随机预热启动和图对齐值重用三种效应的影响。
本文介绍了NebulaExp,一种针对8B规模大语言模型的透明消融驱动后训练流水线,涵盖SFT、GRPO强化学习和多教师蒸馏。它识别了数学推理与代码生成之间的关键权衡,并表明数据正确性过滤是一阶优化因素。
本文从理论和实验两个角度对时间序列 Transformer 的自适应分块方法进行了深入研究,推导出内容自适应分词应优于调优后的均匀分块的条件。在标准基准上的受控实验表明,经过良好调优的均匀基线与动态分块方法具有相当的竞争力,这对自适应方法所假设的优势提出了质疑。
一份研究报告,详细描述了构建外部记忆架构的受控实验,该架构能够实现独立于模型权重的持久性AI身份。研究发现,在三种拓扑结构中,积累的片段历史在塑造输出方面始终主导系统提示。
# 论文页面 - 人工智能架构演化的普适统计特征 来源:[https://huggingface.co/papers/2604.10571](https://huggingface.co/papers/2604.10571) ## 摘要 研究发现,人工智能架构的演化遵循与生物进化相同的统计规律,包括相似的适应度效应分布和趋同动力学。我们检验了人工智能架构演化是否遵循相同的统计法则。