标签
本文分析了一种进化式混合LoRA架构,将其解构为路由、评估和生命周期组件。研究发现,路由重写推动了性能提升,而进化生命周期则对模型性能产生了净负面影响。
Metal-Sci 推出了一项包含 10 个任务的基准测试,用于优化 Apple Silicon 上的科学计算内核,并配套了由大语言模型驱动的演化搜索框架。该研究评估了 Claude Opus 4.7、Gemini 3.1 Pro 和 GPT 5.5 等模型,在实现显著加速的同时,利用分布外测试来捕获静默的性能退化问题。
本文介绍了 LIMEN,这是一个由大语言模型引导的演化框架,能够通过联合优化原始模拟器状态的观测映射与奖励函数,自动发现强化学习接口。该方法有效降低了人工设计成本,并证明了观测与奖励的协同设计优于单独优化其中任意单一组件。
EvoTest 引入了 J-TTL,一个衡量智能体测试时学习能力的基准,并提出了一个进化框架,其中 Actor 智能体玩游戏,而 Evolver 智能体在不进行微调的情况下迭代改进系统的提示、记忆和超参数。该方法在基于复杂文本的游戏中表现出优于基于反思和记忆的基线方法的性能。
DeepMind发布AlphaEvolve,这是一个由Gemini驱动的AI智能体,它将大型语言模型与自动评估器相结合,能够发现并优化用于数学和实际计算问题的算法,提高数据中心、芯片设计和AI训练的效率。
本论文证明了在代码上训练的大型语言模型可以显著增强遗传编程的变异算子,使得能够在 Sodarace 领域中生成数十万个功能性 Python 程序用于机器人设计,且无需预训练数据。该方法称为演化通过大型模型(ELM),将 LLM 与 MAP-Elites 相结合,为上下文特定的制品生成引导新的条件模型。