hybrid-mode

#hybrid-mode

Hybrid Open-Ended Tri-Evolution Makes Better Deep Researcher

arXiv cs.AI ↗ · 3d ago Cached

This paper proposes the Hybrid Open-Ended Tri-Evolution (HOTE) framework, which uses hybrid-mode reinforcement learning to evolve a proposer, solver, and judge collaboratively for deep research tasks, achieving state-of-the-art results with an 8B model surpassing larger static models.

0 favorites 0 likes

hybrid-mode

Hybrid Open-Ended Tri-Evolution Makes Better Deep Researcher

Submit Feedback