factuality

标签

Cards List
#factuality

@FinanceYF5: 3/ 准确性提升 GPT-5.5 Instant 在事实准确性上有明显提升。 尤其是在医学、法律、金融等对准确性要求更高的领域。

X AI KOLs Following · 5天前 缓存

Report claims that GPT-5.5 Instant shows significant improvements in factual accuracy, particularly in high-stakes fields like medicine, law, and finance.

0 人收藏 0 人点赞
#factuality

MoshiRAG:面向全双工语音语言模型的异步知识检索

arXiv cs.CL · 2026-04-20 缓存

MoshiRAG 将紧凑的全双工语音语言模型与异步检索增强生成相结合,在保持实时交互性的同时提高事实准确性。该方法利用对话中自然的时空间隙来检索外部知识,而不会打断对话的自然流程。

0 人收藏 0 人点赞
#factuality

FACTS基准测试套件:系统性评估大语言模型的事实性

Google DeepMind Blog · 2025-12-09 缓存

Google DeepMind与Kaggle联合推出了FACTS基准测试套件,这是一套涵盖参数化知识、检索增强、多模态和 grounding 的综合评估体系,用于系统性衡量大语言模型的事实性。

0 人收藏 0 人点赞
#factuality

FACTS Grounding:评估大语言模型事实性的新基准

Google DeepMind Blog · 2024-12-17 缓存

DeepMind推出FACTS Grounding,这是一个包含1,719个示例的全面基准测试,用于评估大语言模型在源材料中的事实依据能力以及避免幻觉的准确性。该基准包括一个公开数据集和一个在线Kaggle排行榜,用于追踪LLM在事实准确性和事实依据任务上的表现。

0 人收藏 0 人点赞
#factuality

推出 SimpleQA

OpenAI Blog · 2024-10-30 缓存

OpenAI 推出 SimpleQA,一个新的事实性基准数据集,包含 4,326 个简短事实性问题,旨在评估前沿语言模型在提供准确答案而不产生幻觉的能力。该数据集通过双独立标注、严格标准实现高质量,估计错误率仅为 ~3%,GPT-4o 得分不到 40%。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈