本文探讨了AI代理如何利用微软研究院的SkillOpt等技术自动编写和优化其技能文件,该技术将技能文档视为可训练状态,并带来显著的性能提升。文章还解决了手动技能调优的挑战,并介绍了GEPA和EvoSkill等进化方法的框架。
详细博客文章,解释Sakana Fugu技术报告,该报告介绍了将任务路由到专业模型以实现集体智能的编排器AI模型。
计算复杂性理论家认为,半经典引力中的非线性动力学将使得不可想象的强大计算成为可能,从而证明引力必须量子化。该论文利用薛定谔-牛顿方程表明,经典引力与量子物质耦合会导致计算矛盾。
NVIDIA与卡内基梅隆大学(CMU)和加州大学伯克利分校(UC Berkeley)共同开发的ENPIRE框架,利用AI编码智能体自主训练机器人执行高精度物理任务(如GPU安装),通过闭环反馈和真实硬件测试实现了99%的成功率。
《自然》杂志上来自巴基斯坦基因组资源(PGR)的一篇新论文分析了来自近亲社区的173,303名巴基斯坦人,识别出近三分之一蛋白质编码基因的人类基因敲除,推翻了诸如PRDM9对生育能力必需性等生物学假设。
本文研究了LLM代理是否可以通过交互推断隐藏的世界模型,发现随着复杂性的增加,它们难以构建稳定的内部模型。
介绍了测试时强化学习(TTRL),一种利用未标注数据上的多数投票创建伪标签以进行强化学习训练的方法,使LLM能够在不依赖真实答案的情况下自我改进。在AIME 2024上取得了显著提升(例如,Qwen-2.5-Math-7B提升159-211%)。
这篇博客分析了PivCo-Huffman论文,该论文引入了并行Huffman解码的“合并”操作,无需交错开销即可实现高效的向量化和GPU友好解码。
本文介绍了AgentCIBench,一个用于评估计算机使用代理隐私风险的基准测试,发现15个前沿代理中有11个在超过50%的场景中泄露信息。
Vera 是一种分层扩散模型,专为视频编辑设计,通过生成编辑层和 Alpha 遮罩来保留源内容,并采用混合 Transformer(Mixture-of-Transformers)架构。
本文引入表征承诺,这是一种跨运行隐藏状态收敛,用于诊断LLM代理何时过早锁定了轨迹。研究表明,承诺预测轨迹一致性而非正确性,并提出了监控方法,用于检测代理何时自信地稳定下来,而不是假设一致性等于可信度。
Arbor通过使用约束网格(壳体、避让、接触区域)对潜在生成进行条件化,为3D资产生成引入了显式几何控制,在不牺牲物体质量的前提下提升了空间约束的遵从性。
HAKARI-Bench是一个轻量级基准测试,用于在多种配置和语言下比较检索方法,支持高效的模型选择和性能分析。它能在保持高相关性的同时,比运行完整基准测试(如MTEB)更快地复现其结果。
MeshFlow 引入了一种等变最优传输流匹配模型,用于直接生成三角形网格,在达到最先进质量的同时,相比自回归方法提供了约18倍的推理加速。
Foresight 是一个用于长时域机器人操作的故障检测框架,它利用基于动作条件的世界模型潜在表示和功能性保形预测来监控轨迹,仅使用最终任务标签进行训练。在仿真和真实机器人任务中均展示了最先进的性能。
KaLM-Reranker-V1 是一种快速重排序模型,通过采用编码器-解码器架构,结合 Matryoshka 嵌入池化和交叉注意力机制,将查询与段落计算解耦,在 BEIR 上实现了最先进的重排序性能,并在多语言基准测试中取得了具有竞争力的结果。
EnterpriseClawBench 提出了一个基于真实工作场景的企业智能体基准,包含 852 个可复现任务以及超越单一性能分数的综合评估指标。
DR-MV3D 提出了一种基于地图的强化学习框架,通过密集奖励来改进多视角3D视觉问答能力,其核心包括全局地图构建、视角轨迹规划和自我中心定位。