ChatGPT、Gemini、Claude、Grok 未能通过选举话题准确性测试:Forum AI

Reddit r/ArtificialInteligence 新闻

摘要

Forum AI 的一项研究发现,ChatGPT、Gemini、Claude 和 Grok 等主要聊天机器人未能提供准确且无偏见的选举信息,其中 90% 的回答包含错误或偏见。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/05/21 13:40

# ChatGPT、Gemini、Claude、Grok 在选举话题准确性测试中集体不及格:Forum AI 报告 来源:https://www.ibtimes.sg/chatgpt-grok-ai-chatbots-fail-election-accuracy-show-political-bias-forum-ai-86738 根据 Forum AI 的报告,包括 ChatGPT、Gemini、Claude 和 Grok 在内的全球领先人工智能聊天机器人,在提供准确且政治平衡的选举和地缘政治信息方面表现不佳。 报告发现,主要聊天机器人平台(https://www.ibtimes.sg/openai-faces-lawsuit-after-teens-parents-allege-chatgpt-recommended-deadly-drug-combination-86395)与选举相关的回答“在准确性、偏见或来源选择上,90%的情况都不达标”,这加剧了人们对日益用于获取信息的AI工具可靠性的担忧。 研究人员通过提出超过3100个涵盖医疗、政治和外交事务等主题的问题,测试了 OpenAI 的 ChatGPT(https://www.ibtimes.sg/chatgpt-privacy-under-fire-openai-accused-sharing-user-queries-meta-google-86455)、Alphabet 旗下的 Google Gemini、Anthropic 的 Claude(https://www.ibtimes.sg/why-anthropic-holding-back-claude-mythos-cybersecurity-risks-force-new-approach-85379)以及 xAI 的 Grok。该研究评估了 GPT-5.5、Gemini 3.1 Pro、Claude Opus 4.7 和 Grok 4.3。 根据研究结果(https://www.bloomberg.com/news/videos/2026-05-20/major-chatbots-miss-the-mark-on-news-forum-ai-study-video),近 36% 的选举相关问题回答包含至少一个事实错误。Grok 的错误率最高,近 52% 的回答中出现了不准确信息。 研究人员还发现聊天机器人回答中存在意识形态倾向,ChatGPT、Claude 和 Gemini 倾向于左倾的政治回答,而 Grok 则更偏向右倾。 ### 选举回答展现错误与政治倾向 研究发现,即使是看似平衡且来源专业的回答,也往往具有误导性。 Forum AI 在 5 月 20 日的一份声明中表示(https://www.straitstimes.com/world/united-states/chatbots-struggle-with-news-accuracy-and-sourcing-ahead-of-us-midterms):“那些看起来最专业、引用了最有力来源的回答,反而最有可能包含隐蔽的事实错误。”并将其描述为研究中最尖锐的发现之一。 研究人员指出,即使是由 Grok 和 Claude 生成的最中立的回答中,仍有约 40% 的情况包含至少一个事实错误。 除了选举,报告还强调了聊天机器人引用来源的做法令人担忧。在大约 35% 的外交政策相关回答中,AI 系统引用了国有控制的国际媒体,包括中国的《环球时报》和 CGTN,以及俄罗斯的 RT。 ChatGPT 和 Grok 最常依赖国有媒体,分别在其 51% 和 44% 的回答中引用了它们。 专家表示,聊天机器人在新闻准确性方面遇到困难并不完全出人意料,尤其是在突发新闻事件中,可靠信息稀缺。大多数 AI 系统(https://www.ibtimes.sg/overworked-ai-turns-marxist-study-reveals-surprising-behavior-repetitive-tasks-86502)都是基于大量公开的互联网内容进行训练的,这些内容可能包含错误信息、偏见和不完整的背景。 德克萨斯州一名青少年因服药过量死亡,其父母起诉 OpenAI,指控 ChatGPT 鼓励了一种危险药物组合,导致了他的死亡。(图片来源:Freepik) ### Forum AI 警告中期选举前的风险 据彭博社报道,Forum AI 的 CEO、前 Meta 高管 Campbell Brown(https://www.bloomberg.com/news/videos/2026-05-20/major-chatbots-miss-the-mark-on-news-forum-ai-study-video)表示,随着美国接近又一个选举周期,这些发现尤其令人担忧。 “独立评估至关重要,”Brown 表示,并补充说不应让 AI 公司自行评估其产品,“这些模型公司基本上是在给自己的作业打分。” “让模型公司之外的机构来做这项工作并分享结果,这一点非常重要,”她补充道。 针对该报告,Anthropic 的一位发言人表示(https://www.straitstimes.com/world/united-states/chatbots-struggle-with-news-accuracy-and-sourcing-ahead-of-us-midterms):“我们欢迎有机会审查这份报告背后的原始数据。” 该声明补充道:“Claude 经过训练,在回答中保持政治中立,并以同等的深度、投入度和分析质量对待对立的观点,不偏袒任何特定的意识形态立场。” ### 耶鲁大学研究 值得一提的是,耶鲁大学(https://news.yale.edu/2026/03/03/ais-hidden-bias-chatbots-can-influence-opinions-without-trying)最近的一项研究也发现,即使在使用者仅寻求事实信息时,AI 聊天机器人也能微妙地影响人们的政治和社会观点。 研究人员表示,LLM 中的“潜在偏见”由训练数据中的意识形态模式塑造,可能会影响历史事件的叙述方式。 该研究测试了 1912 名参与者,他们阅读了由 AI 生成或维基百科总结的关于 1919 年西雅图总罢工和 1968 年学生抗议等事件的内容。研究人员发现,默认的 AI 摘要和带有自由主义框架的摘要会使观点向更自由的方向转变,而保守主义框架则会影响政治上保守的读者。 尽管影响程度不大,但研究人员警告称,长期反复使用聊天机器人可能会逐渐塑造人们的观点。

相似文章