factuality

#factuality

预算约束下RAG系统中的事实错误诊断与修复

arXiv cs.AI ↗ · 3天前缓存

本文提出D2R-RAG，一个模型无关且资源感知的框架，在延迟和VRAM约束下诊断和修复RAG系统中的事实错误，在FEVER和HotpotQA上实现了更好的准确性与效率权衡。

0 人收藏 0 人点赞

#factuality

ConflictScore: 识别与衡量语言模型如何处理矛盾证据

arXiv cs.CL ↗ · 2026-06-26 缓存

ConflictScore是一种新度量，用于量化语言模型在面对其基础文档中的矛盾证据时的识别能力，它将响应分解为原子声明并衡量矛盾平衡。论文还引入了ConflictBench，这是一个涵盖多种矛盾形式的基准测试，并展示了该度量可以提高TruthfulQA上的真实性。

0 人收藏 0 人点赞

#factuality

@FinanceYF5: 3/ 准确性提升 GPT-5.5 Instant 在事实准确性上有明显提升。尤其是在医学、法律、金融等对准确性要求更高的领域。

X AI KOLs Following ↗ · 2026-05-10 缓存

Report claims that GPT-5.5 Instant shows significant improvements in factual accuracy, particularly in high-stakes fields like medicine, law, and finance.

0 人收藏 0 人点赞

#factuality

MoshiRAG：面向全双工语音语言模型的异步知识检索

arXiv cs.CL ↗ · 2026-04-20 缓存

MoshiRAG 将紧凑的全双工语音语言模型与异步检索增强生成相结合，在保持实时交互性的同时提高事实准确性。该方法利用对话中自然的时空间隙来检索外部知识，而不会打断对话的自然流程。

0 人收藏 0 人点赞

#factuality

FACTS基准测试套件：系统性评估大语言模型的事实性

Google DeepMind Blog ↗ · 2025-12-09 缓存

Google DeepMind与Kaggle联合推出了FACTS基准测试套件，这是一套涵盖参数化知识、检索增强、多模态和 grounding 的综合评估体系，用于系统性衡量大语言模型的事实性。

0 人收藏 0 人点赞

#factuality

FACTS Grounding：评估大语言模型事实性的新基准

Google DeepMind Blog ↗ · 2024-12-17 缓存

DeepMind推出FACTS Grounding，这是一个包含1,719个示例的全面基准测试，用于评估大语言模型在源材料中的事实依据能力以及避免幻觉的准确性。该基准包括一个公开数据集和一个在线Kaggle排行榜，用于追踪LLM在事实准确性和事实依据任务上的表现。

0 人收藏 0 人点赞

#factuality

推出 SimpleQA

OpenAI Blog ↗ · 2024-10-30 缓存

OpenAI 推出 SimpleQA，一个新的事实性基准数据集，包含 4,326 个简短事实性问题，旨在评估前沿语言模型在提供准确答案而不产生幻觉的能力。该数据集通过双独立标注、严格标准实现高质量，估计错误率仅为 ~3%，GPT-4o 得分不到 40%。

0 人收藏 0 人点赞

factuality

预算约束下RAG系统中的事实错误诊断与修复

ConflictScore: 识别与衡量语言模型如何处理矛盾证据

@FinanceYF5: 3/ 准确性提升 GPT-5.5 Instant 在事实准确性上有明显提升。 尤其是在医学、法律、金融等对准确性要求更高的领域。

MoshiRAG：面向全双工语音语言模型的异步知识检索

FACTS基准测试套件：系统性评估大语言模型的事实性

FACTS Grounding：评估大语言模型事实性的新基准

推出 SimpleQA

提交意见反馈

@FinanceYF5: 3/ 准确性提升 GPT-5.5 Instant 在事实准确性上有明显提升。尤其是在医学、法律、金融等对准确性要求更高的领域。