标签
Ultralytics YOLO26 引入了一个统一的实时视觉模型家族,具有无需NMS的推理、改进的训练策略以及用于检测、分割和姿态估计的多任务能力,实现了最先进的精度与延迟权衡。
本文提出了一种新的模型合并框架,将问题转化为关于残差更新的凸二次规划,以最小化平方输出的校准目标。该框架涵盖现有的启发式方法,并提供了一种闭式诊断指标来预测合并质量,在语言和视觉基准测试中持续取得改进。
Qwen-VLA是一个面向具身决策的统一视觉-语言-动作模型,整合了不同机器人平台上的操作、导航与轨迹预测。它采用基于DiT的动作解码器和具身感知提示条件,实现了强性能与分布外泛化。
本文介绍了AsyncTool,一个用于评估基于LLM的智能体在多任务场景下具有延迟工具响应的异步函数调用能力的基准测试。它提出了面向效率的度量指标,并识别了当前工具使用智能体的关键失败模式。