标签
有用户观察到,Gemini 3.1 掌握了丰富的世界知识,却倾向于输出敷衍的回答,未充分发挥其能力。
根据DeepSeek V4技术报告对主流大模型的横评,Gemini 3.1 Pro的世界知识被认为最强,但用户普遍觉得不好用,原因是该模型不主动调用搜索工具。
一篇新论文提出了一种基于结果的奖励机制,可量化智能体自生成的世界知识对任务成功率的提升,使其在推理阶段无需外部指导即可持续改进。
# 论文页面 - 通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化 来源:[https://huggingface.co/papers/2604.18131](https://huggingface.co/papers/2604.18131) ## 摘要 具备内在元进化能力的智能体通过在没有外部监督的情况下自主生成的世界知识,在网页导航任务中展现出更优的性能。如今大多数智能体通过遵循人类定义的奖励和规则来``自我进化''。然而,