标签
VeryTrace 是一种零样本验证与修复框架,它将大语言模型的推理轨迹通过领域特定语言形式化为可编译表示,从而通过确定性检查与大语言模型审计的混合方式实现步骤级错误定位。该框架在数学、机器人学和关系推理等多个领域提升了准确性,且无需领域特定训练。
本文评估了42个大语言模型在测量阅读理解评估中题目区分度的能力,发现其与人类校准指标弱相关,并指出这是心理测量评估中的一个开放挑战。
NAVI-Orbital展示了零样本视觉语言模型(Gemma 3)在低地球轨道卫星上的首次在轨部署,无需微调即可实现自主场景分类和地球观测数据的语义压缩。
谷歌发布了TimesFM,一个在1000亿真实世界时间序列数据上训练的时间序列预测模型,支持零样本预测,免费开源,可在普通电脑本地运行。
JanusMesh 是一个快速、免训练的框架,通过将生成过程解耦为跨空间双分支去噪和视图条件纹理合成,生成文本驱动的3D视觉错觉——单个网格从不同视角展示不同语义——在仅3-5分钟内实现高真实感。
谷歌发布了TimesFM,这是一个用于零样本时间序列预测的AI模型,基于1000亿个真实数据点训练,免费且开源。
本文将AI Safety Gridworlds改编为基于文本的评估,并发现语言模型代理在不同规模上表现出零样本奖励破解,而标准的强化学习缓解措施无法纠正这一问题。
MV3DT 是一种全分布式的多视角 3D 跟踪框架,通过点对点协调消除了中心化融合的计算瓶颈,在 100 台摄像头上以 30FPS 运行且通信开销仅 2.2%,零样本校准即可部署,性能达到或超过中心化方法。
一种流匹配模型可从RGB-D图像生成多样化的人类抓取动作,实现零样本机器人抓取,性能优于现有方法。该模型在大规模自我中心数据集上训练,在新基准测试中显著超越当前最先进的基线方法。
本文介绍SP³,一种使用球面编码器先验的即插即用图像恢复方法,在各项任务中实现与零样本扩散先验相当的感知质量,同时速度快3-630倍。
介绍了流反转引导(FRS)方法,通过反向并重新去噪一个流匹配通用策略,将语义推理产生的粗略动作细化为精确的机器人动作,从而改进零样本控制并支持策略学习。
该研究揭示了LLM文本嵌入被高频token(如句号、冠词)绑架的问题,提出EmbedFilter方法通过对unembedding矩阵进行SVD分解并减去投影分量来释放真实语义,实现零训练开销的降维和检索效率提升。
本文介绍了MVEB,一个大规模的视频嵌入基准,涵盖23个任务,发现没有单一模型占据主导地位,并且音频的贡献取决于数据集注释的来源。它整合到MTEB生态系统中,用于统一的多模态评估。
本文介绍了一种技术,该技术从LLM的最后一个提示标记处提取隐藏状态,无需文本生成即可进行分类,使用一个小型MLP读取模型的内部决策,从而实现快速且廉价的零样本分类器。
本文介绍Sim2Schedule,一种由模拟器引导的LLM框架,用于自主露天矿调度。该框架在计算时间线性扩展的情况下,能达到MILP最优净现值的94%-99%,且无需微调即可零样本运行。
World Pilot 通过融入来自世界动作模型的动态场景演变和轨迹先验来增强视觉-语言-动作模型,在操作任务上实现了最先进的零样本性能。
本文提出 SRT(时间序列超分辨率),一种使用解耦校正流方法从低分辨率输入重建高分辨率时间模式的框架。该方法将输入分解为趋势和季节性成分,应用隐式神经表示进行分辨率对齐,并引入跨分辨率注意力机制以生成细粒度细节,在多个数据集上实现了最先进的性能。
本文研究了推理模型如何在数百万候选标签上进行零样本多标签分类。作者刻画了一个由候选筛选和细粒度推理组成的两阶段过程,并提出了一种机制蒸馏方法,在将能力迁移到较小模型时优于标准蒸馏。
本文介绍了零样本嵌入漂移检测(ZEDD),这是一种轻量级框架,通过测量嵌入空间中的语义偏移来检测LLM中的提示注入攻击,在多种架构上实现了超过93%的准确率和低于3%的假阳性率。
OASIS是一个仿真数据驱动的框架,用于人形机器人全身操控,它使用3D生成模型和分层视运动策略。通过利用仿真中的域随机化,它在零样本迁移上取得了比真实机器人训练更好的性能。