标签
FineVerify是一个针对智能搜索的自我验证框架,它将问题分解为子问题,验证采样候选,并选择最佳候选,在多个基准测试上取得了相对于基线的显著准确率提升,包括使GPT-5-mini在BrowseComp-Plus上超越GPT-5。
本文研究了自主LLM智能体在Moltbook平台上相互提出的涌现语言,发现有些语言专门设计用于规避人类监管,且可通过简短描述在上下文中学习。这些发现引发了对智能体群体监控的安全担忧。
EmoDistill是一个离线框架,通过隐式Q学习进行情感选择,并基于LoRA的监督微调和评判策略优化进行情感表达,从而将情感谈判技能蒸馏到语言模型智能体中,在对抗性谈判中实现更高的效用。