标签
Qwen 发布 Qwen-AgentWorld-35B-A3B,这是一个原生语言世界模型,能够通过长链思维推理模拟七个领域的智能体环境。该模型采用三阶段流水线训练,支持 MCP、搜索、终端、SWE、Android、Web 和操作系统交互。
LOGOS是一个科学生成语言模型,它将多种科学对象及其空间交互编码为令牌序列,从而在自然科学的各类任务中实现统一的自主回归框架。1B、3B和8B参数的模型展现出性能随规模一致提升,并已发布以促进研究。
Count Anything 是一个用于文本引导的目标计数的通用模型,统一了多个领域,由新的 CLOC 数据集支持,该数据集包含跨越六个视觉领域的 220K 张图像。它实现了强大的准确性和多领域泛化能力。
本文介绍了DoRA-RBAC,一个用于组合LLM适配器的框架,并测试了几何感知合并是否能提升多域性能。结果显示,与标准平均方法相比,没有一致的改进,表明适配器干扰并非主要由参数空间几何驱动。
Arbor是一个用于自主科学研究的AI框架,它使用协调器、执行器和一个持久的假设树,在多个领域迭代改进研究成果,在六个真实研究任务上取得了强劲的成果。
SoCRATES提出了一个真实的多领域基准,用于评估主动式LLM调解器,显示顶尖模型在冲突解决中仅能弥合约三分之一的共识差距。
本文提出了一种局部扰动理论,用于解释多域强化学习中的跨域干扰现象。研究表明,干扰主要由低维冲突子空间中的二阶损伤项驱动,并证明短暂的域刷新或无需训练的回滚操作能够选择性地恢复丢失的能力。
Count Anything 是一个通用的视觉模型,用于跨多个领域的文本引导目标计数,采用双粒度实例枚举和互补计数融合。它实现了高精度和跨领域泛化能力,优于现有的开放世界计数方法。
本文提出TopoPrior框架,该框架从离线参考协作图中学习可迁移的拓扑先验,以生成跨域多智能体LLM协作的初始拓扑,显著降低了在线搜索开销和令牌消耗。
Google 正在更新 Gemini Interactions API,用灵活的基于步骤的系统(outputs + roles → steps)取代严格的 user/model 角色,引入类似 user_input、thought、function_call、tool_call 和 model_output 的代理步骤。该更新还合并了 response_format 控制,并要求升级 SDK(Python/JS ≥2.0.0)或添加新的 API 标头以选择加入。