grounding

标签

Cards List
#grounding

我们向十个模型提出了一个设计问题:达成正确答案的最佳方式是什么?它们没有选边站队——而是针对每种问题推荐了合适的工具。RoundTable 已有其一,于是我们构建了另一个。

Reddit r/artificial · 昨天 缓存

十个 AI 模型被问及回答问题的最佳方式;它们推荐针对高风险决策采用委员会模式,针对事实查询采用基于来源的事实核查器。这促使 RoundTable 构建了 'Check mode',一项将强大模型与基于网页的事实核查器配对的新功能。

0 人收藏 0 人点赞
#grounding

GAVEL:有依据的描述错误验证与定位

arXiv cs.CL · 2天前 缓存

GAVEL 提出了一个新任务,用于验证、解释和定位图像-文本对中的错误,并附带一个数据集和基准。一个监督基线显示出相对于强闭源模型的改进。

0 人收藏 0 人点赞
#grounding

先定位后排序:重新审视基于知识的VQA中的免训练实体识别

arXiv cs.CL · 4天前 缓存

本文提出了一种免训练的“先识别后回答”(IBA)框架,用于基于知识的视觉问答(KB-VQA),该框架将实体识别与证据排序解耦,在降低复杂度的同时优于微调的多模态检索增强生成基线。

0 人收藏 0 人点赞
#grounding

DiagFlowBench: 评估语言模型在基于流程的诊断对话中如何处理非程序输入

arXiv cs.AI · 2026-06-17 缓存

本文介绍了DiagFlowBench,这是一个包含1,676个多轮诊断对话的基准数据集,这些对话源自工业流程图,旨在评估语言模型处理非程序输入及避免给出不恰当建议的能力。

0 人收藏 0 人点赞
#grounding

先见后思:解耦感知与推理实现抗捷径的多模态在策略自蒸馏

Hugging Face Daily Papers · 2026-06-17 缓存

本文介绍了ViGOS,一种多模态在策略自蒸馏方法,通过让学生模型先产生视觉描述再进行推理来解耦感知与推理,减少对捷径的依赖并改善图像接地行为。

0 人收藏 0 人点赞
#grounding

视觉具象化推理

Hugging Face Daily Papers · 2026-06-15 缓存

本文介绍了视觉具象化推理,一种使视觉语言模型能够将自然语言推理与使用点或框的明确视觉证据基础相结合的方法。一个可扩展的合成流水线和基础感知的强化学习提高了推理准确性,使得一个4B模型在空间和计数基准上能够匹配甚至超越一个27B模型。

0 人收藏 0 人点赞
#grounding

帮助图表讲述它们的故事!基于论文的视频生成,解释复杂的科学图表

arXiv cs.CL · 2026-06-12 缓存

介绍了 MINARD,一个从科学图表及其论文生成带旁白、区域定位的讲解视频的流水线,以及 FigTalk 基准和新的定位指标。

0 人收藏 0 人点赞
#grounding

视觉语言模型是在“看”还是在“猜”?通过措辞控制的基准测试衡量并减少对文本先验的依赖

arXiv cs.CL · 2026-06-10 缓存

本文介绍了一个措辞控制的基准测试,用于衡量视觉语言模型在多大程度上依赖文本先验而非图像内容。在十一个模型上的实验表明,当文本泄漏最小时,性能显著下降,作者证明上下文学习和GRPO后训练可以减少这种依赖。

0 人收藏 0 人点赞
#grounding

Reroute,而非移除:面向视觉语言模型的可恢复视觉令牌路由

Hugging Face Daily Papers · 2026-06-10 缓存

提出Reroute,一种无需训练的视觉语言模型插件,用可恢复的路由替代不可逆的视觉令牌剪枝,允许令牌在后续阶段重新进入流水线,从而在激进的令牌缩减下提升接地性能,同时保持VQA性能。

0 人收藏 0 人点赞
#grounding

从执行结果自举文本到SQL的语义层

arXiv cs.CL · 2026-06-05 缓存

介绍GATE(从执行结果中测试后接地)方法,该方法从执行反馈中自举缺失的语义接地,以处理文本到SQL任务中未明确指定的用户短语,持续提升超越强基线。

0 人收藏 0 人点赞
#grounding

@DataChaz: NVIDIA 刚完成了一项疯狂之举:通过移除整个行业认为必不可少的步骤,将边界框检测速度提升至10倍。

X AI KOLs Timeline · 2026-06-01 缓存

NVIDIA研究人员开发了一种技术,通过消除VLM基础模型用于自动回归逐token预测的步骤,将边界框检测速度提升了10倍。

0 人收藏 0 人点赞
#grounding

通过物理交互涌现的世界模型语义表征,无需语言监督

arXiv cs.LG · 2026-05-29 缓存

本文表明,通过随机物理探索训练世界模型,能够在不依赖任何语言监督的情况下,使潜在表征编码出空间语义结构(方向和位置),突显物理几何作为组织原则。

0 人收藏 0 人点赞
#grounding

图对齐拓扑作为接地检测的归纳偏置

arXiv cs.CL · 2026-05-25 缓存

本文介绍了将图对齐拓扑作为接地检测的归纳偏置,使用图神经网络对参考信息与LLM输出之间的对齐结构进行建模。该方法在多个幻觉和问答数据集上取得了最先进的结果,性能优于GPT-4o。

0 人收藏 0 人点赞
#grounding

模型能建模,但不能绑定:文本到优化中的结构化接地

arXiv cs.LG · 2026-05-22 缓存

本文介绍了Text2Opt-Bench,一个可扩展的文本到优化基准,并发现大语言模型在“绑定”(问题数据接地)方面存在困难,而非“建模”(选择优化结构)。作者提出了BIND,一种简单的推理时方法,将数值数据外部化,显著提高了各模型的准确率。

0 人收藏 0 人点赞
#grounding

评估了一个RAG聊天机器人,最昂贵的模型表现最差。关于真正影响性能的因素的笔记。

Reddit r/LocalLLaMA · 2026-05-15

对RAG客户支持聊天机器人的详细评估揭示:检索问题常被误认为是LLM问题,启发式评估器具有误导性,去重可提升质量,严格基于文档的约束会在帮助性和准确性之间取舍,而模型扫查可在提升性能的同时大幅降低成本。

0 人收藏 0 人点赞
#grounding

基于依据的延续:一种用于LLM对话的线性时间运行时验证器

arXiv cs.AI · 2026-05-15 缓存

本文介绍了基于依据的延续(Grounded Continuation),一种用于LLM对话的线性时间运行时验证器,它维护一个显式依赖图,以检测下一句话是否得到先前对话的支持,在包括LongMemEval和LoCoMo的基准测试中,相比基线取得了准确率提升。

0 人收藏 0 人点赞
#grounding

Falcon Perception

Hugging Face Blog · 2026-04-01 缓存

Falcon Perception 是由 TII UAE 发布的 0.6B 参数早期融合 Transformer 模型,用于基于自然语言提示的开放词汇定位与分割,采用混合注意力机制和专用头(specialized heads)设计。

0 人收藏 0 人点赞
#grounding

FACTS Grounding:评估大语言模型事实性的新基准

Google DeepMind Blog · 2024-12-17 缓存

DeepMind推出FACTS Grounding,这是一个包含1,719个示例的全面基准测试,用于评估大语言模型在源材料中的事实依据能力以及避免幻觉的准确性。该基准包括一个公开数据集和一个在线Kaggle排行榜,用于追踪LLM在事实准确性和事实依据任务上的表现。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈