什么让大模型成为优秀优化器?——LLM引导演化搜索的轨迹分析
摘要
对15个大模型在8项任务上的大规模研究表明,优化成功的关键在于保持局部化搜索轨迹,而非初始解题能力或解的新颖性。
查看缓存全文
缓存时间: 2026/04/22 14:41
论文页面 - 是什么让 LLM 成为优秀优化器?LLM 引导进化搜索的轨迹分析
来源:https://huggingface.co/papers/2604.19440
摘要
LLM 引导的进化搜索表明,优化成功取决于搜索轨迹特征,而非仅靠初始解题能力;强优化器局部精修,弱优化器则出现语义漂移。
近期研究已展示在进化和智能体优化系统中编排大语言模型(https://huggingface.co/papers?q=large%20language%20models)(LLM)的潜力。然而,驱动这些优化增益的机制仍不清楚。本工作对 LLM 引导的进化搜索(https://huggingface.co/papers?q=evolutionary%20search)开展大规模研究,在 8 项任务中收集 15 个 LLM 的优化轨迹(https://huggingface.co/papers?q=optimization%20trajectories)。尽管零样本解题能力与最终优化结果相关,它仅能解释部分方差:初始能力相近的模型往往诱导出截然不同的搜索轨迹与结果。通过分析这些轨迹,我们发现强 LLM 优化器表现为局部精修器,频繁产生增量改进,同时在语义空间(https://huggingface.co/papers?q=semantic%20space)中逐步聚焦搜索。相反,弱优化器表现出大幅语义漂移(https://huggingface.co/papers?q=semantic%20drift),偶现突破后便陷入停滞。值得注意的是,各种解的新颖性(https://huggingface.co/papers?q=solution%20novelty)指标均无法预测最终性能;仅当搜索足够聚焦于解空间的高性能区域时,新颖性才有益。我们的结果凸显轨迹分析(https://huggingface.co/papers?q=trajectory%20analysis)对理解和改进基于 LLM 的优化系统的重要性,并为其设计与训练提供可行洞见。
查看 arXiv 页面(https://arxiv.org/abs/2604.19440)查看 PDF(https://arxiv.org/pdf/2604.19440)项目页面(https://xinhao-zhang.github.io/traj_evo_search/)GitHub0(https://github.com/XINHAO-ZHANG/LLMEvo_Eval)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.19440)
在您的智能体中获取该论文:
hf papers read 2604\.19440
尚未安装最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用该论文的模型 0
暂无模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2604.19440 即可在此页面显示链接。
引用该论文的数据集 0
暂无数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2604.19440 即可在此页面显示链接。
引用该论文的 Spaces 0
暂无 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2604.19440 即可在此页面显示链接。
收录该论文的合集 0
暂无合集收录此论文
将该论文添加到合集(https://huggingface.co/new-collection)即可在此页面显示链接。
相似文章
评估 LLM 在受控实验中作为人类代理的可靠性
本论文通过比较 LLM 生成的数据与人类在准确性感知调查中的反应,评估现成 LLM 是否能可靠地模拟受控行为实验中的人类反应。研究发现,虽然 LLM 能捕捉方向性效应和聚合信念更新模式,但它们的效应大小与人类尺度不一致,这有助于澄清合成 LLM 数据何时可以作为行为代理。
通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化
# 论文页面 - 通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化 来源:[https://huggingface.co/papers/2604.18131](https://huggingface.co/papers/2604.18131) ## 摘要 具备内在元进化能力的智能体通过在没有外部监督的情况下自主生成的世界知识,在网页导航任务中展现出更优的性能。如今大多数智能体通过遵循人类定义的奖励和规则来``自我进化''。然而,
LLM 排名并非阶梯:来自传递性基准图的实验结果 [D]
作者介绍了 LLM Win,这是一个将大语言模型(LLM)基准测试结果可视化为有向图的工具,用于分析传递关系和排名逆转。实验结果表明,LLM 的排名更像是一个具有较高弱到强可达性的能力图,而非线性阶梯。
本地LLM实战测试:代码生成、质量与速度权衡
作者构建了一个基准测试框架,用于评估本地LLM在自动生成Go代码方面的能力,重点聚焦SIEM流水线的日志解析器生成,并发布了对比质量与速度的测试结果。
跨异构任务的自演化LLM记忆抽取
研究者推出BEHEMOTH基准与CluE聚类提示优化,使LLM能从多样化任务中抽取并保留异构记忆,相比既往自演化框架提升9%。