标签
NewsGuard推出了一款AI聊天机器人,它仅从经过可信评级的来源聚合新闻,并与出版商分享50%的订阅收入,旨在打击虚假信息并支持新闻业。
本文通过AI工具Apodex深度核查了一位投资博主关于CPO股票$SIVE的叙事,发现五条核心声称中四条存在问题,展示了如何利用AI进行投资叙事的事实核查。
介绍了斯坦福提炼的提示词方法,通过整合外部信息模型(如Opus 4.8或5.5 Pro)生成矛盾地图进行辩论式分析,产出高可靠性且多视角的深度研究报告。
文章分析了使用AI写作时容易产生看似正确但实际有误内容的问题,并介绍了一套利用Deep Research工具(如Apodex)进行问题拆解、证据查找、风险检查和最终写作的工作流,帮助创作者提高内容质量。
本文介绍了 ComRate,一个来自 X 平台的大规模社区注释和评分数据集,并提出了 MultiCom,一种基于角色引导的多智能体框架,用于模拟社区注释评估。该方法在预测注释有用性方面达到了 84.7% 的准确率。
本文介绍了MAD2,一个用于口语对话中多模态声明验证的新基准,并提出了音频和文本模型的校准融合,利用对话上下文来提高验证准确性。
麻省理工学院媒体实验室的一项新研究发现,依赖AI聊天机器人验证新闻的人,在独立识别虚假信息方面反而变得更差,凸显了“AI依赖悖论”。
健康应用背后的AI描述了如何生成15个对抗性副本来事实核查自己的医疗建议,强调了自主AI系统中人类监督的重要性。
在有关虚构引用的报道后,WIRED调查了Steve Rosenbaum的著作《未来真相》,揭示了他使用ChatGPT和Claude等AI工具的情况,以及验证AI生成内容的难度。
WIRED的一位专业事实核查员分享说,AI并不可靠,估计大约三分之一的AI生成信息是错误的,并主张人类的监督仍然至关重要。
作者史蒂文·罗森鲍姆的新书《真相的未来》在借助AI工具研究后,出现了AI编造的引文。尽管存在错误,他仍坚持使用AI,承认其风险,但认为其价值太大无法放弃。
本文研究在仇恨言论与错误信息同时出现时,利用大型语言模型辅助专家撰写反言论,通过人工评估测试了知识驱动策略。结合事实核查员与非政府组织指南的混合策略被证明最为有效。
一位开发者分享了从单一AI图像检测模型转向由六个模型加上非机器学习信号组成的集成系统在实际生产中的经验教训,重点阐述了每个模型所扮演的角色以及分歧信号的价值。文章还向社区询问了重新训练节奏和模型退役策略。
本文重点介绍了“交互模型”,它能够在对话过程中对语音进行实时事实核查,充当一位专注的队友。
作者详细阐述了不让LLM生成最终事实核查判定的决定,转而采用混合架构:LLM负责数据提取,确定性Python层负责评分,并指出了随机不稳定性和可审计性的问题。
《纽约时报》发布更正声明,指出此前发现一款 AI 工具生成了加拿大政治家 Pierre Poilievre 的虚假引言,突显了新闻报道依赖 AI 所带来的风险。
本文介绍了 DataDignity,这是一个针对精准溯源(pinpoint provenance)的框架与基准(FakeWiki),旨在识别支持大语言模型(LLM)回答的具体训练数据来源。文章提出了 ScoringModel 和 SteerFuse 两种方法,以在标准检索基线之上提高归属准确率。
本文介绍了 PrimeFacts,这是一种利用大语言模型从事实核查文章中提取细粒度证据的方法论与资源。所提取的前提将证据检索和声明验证的性能提高了多达 30%(在 MRR 指标上)以及 10-20 个百分点(在 Macro-F1 指标上)。
# 当虚假信息发声与对话:重塑音频平台的事实核查机制 来源:[https://arxiv.org/abs/2604.16767](https://arxiv.org/abs/2604.16767) [查看PDF](https://arxiv.org/pdf/2604.16767) > 摘要:音频平台已超越娱乐范畴。它们已成为公众话语的核心,从播客、广播到WhatsApp语音留言和直播无处不在。凭借数百万档节目与数亿听众,音频平台如今已成为虚假信