标签
ThinkBooster是一个用于LLM推理的测试时计算扩展的统一框架,提供了模块化Python库、性能-效率基准、兼容OpenAI的代理服务以及可视化调试器。在数学和编程任务上的实证结果展示了实际收益以及质量-成本权衡。
CIPER是一个统一的Transformer框架,能够联合执行城市级跨视图图像检索和精确的三自由度(3-DoF)姿态估计,克服了级联管道的局限性。
OmniRetrieval 是一个框架,通过将原生查询分派到适当的执行引擎,统一了跨异构知识源(文本、表格、图)的检索,在包含13个数据集和309个知识库的基准测试中,优于单源基线。
FashionLens提出了一种统一的多模态大语言模型时尚图像检索框架,采用自适应校准与采样策略,在多种检索场景下实现了最先进的性能。
Aurora 是一个基于代理的视频编辑框架,它将一个工具增强的视觉语言模型代理与扩散变换器配对,自动解决用户请求中的文本和视觉未指定性,从而实现统一视频编辑任务,如替换、移除、风格迁移和参考驱动插入。
Skill1 是一个统一框架,通过共享的任务结果目标,训练单一策略以协同进化技能选择、利用与蒸馏。在 ALFWorld 和 WebShop 上的实验表明,该框架在复杂任务环境中优于现有的基线方法。
本文介绍了 UniVidX 论文,该论文提出了一种利用扩散先验进行视频生成的统一多模态框架,并讨论了其跨模态一致性机制。
UniMesh通过单一模型,借助Mesh Head、链式网格迭代编辑和自省纠错机制,同时完成3D网格生成与理解任务。