标签
本文介绍了 DataDignity,这是一个针对精准溯源(pinpoint provenance)的框架与基准(FakeWiki),旨在识别支持大语言模型(LLM)回答的具体训练数据来源。文章提出了 ScoringModel 和 SteerFuse 两种方法,以在标准检索基线之上提高归属准确率。
本文介绍了 PrimeFacts,这是一种利用大语言模型从事实核查文章中提取细粒度证据的方法论与资源。所提取的前提将证据检索和声明验证的性能提高了多达 30%(在 MRR 指标上)以及 10-20 个百分点(在 Macro-F1 指标上)。
# 当虚假信息发声与对话:重塑音频平台的事实核查机制 来源:[https://arxiv.org/abs/2604.16767](https://arxiv.org/abs/2604.16767) [查看PDF](https://arxiv.org/pdf/2604.16767) > 摘要:音频平台已超越娱乐范畴。它们已成为公众话语的核心,从播客、广播到WhatsApp语音留言和直播无处不在。凭借数百万档节目与数亿听众,音频平台如今已成为虚假信
研究人员提出了首个用于从社交媒体中进行多模态声明提取的基准,评估了最先进的多模态大语言模型,并引入了MICE——一个意图感知框架,在处理图文结合帖子中的修辞意图和上下文线索方面有所改进。
本论文介绍了FRANQ方法,用于检测检索增强生成(RAG)系统中的幻觉问题。该方法应用不同的不确定性量化技术来区分事实性和对检索上下文的忠实性。作者构建了一个同时标注事实性和忠实性的新数据集,并证明FRANQ在多个数据集和大语言模型上的事实错误检测性能优于现有方法。
这件事发生在几小时前,我感觉自己确实偶然发现了一个值得为关注 AI 行为的人记录下来的案例。我会尽量精确地还原整个时间线,因为事件的先后顺序在此处至关重要。如果你想自己阅读完整聊天记录:https://g.co/gemini/share/0cb9f054ca58 --- **背景** 我当时正在使用付费版 Gemini 最先进的模型来分析 AAVE 上的实时加密交易。该代币在过去一小时内毫无征兆地下跌了 7–9%,没有任何新闻能够解释,而...
Google DeepMind 推出了基于 Gemini 构建的实验性 AI 工具 Backstory,帮助用户通过检测 AI 生成、追踪使用历史和识别数字篡改来验证图像真实性和背景信息。