ChatGPT、Gemini、Claude、Grok 未能通过选举话题准确性测试：Forum AI

Reddit r/ArtificialInteligence 2026/05/21 12:04 新闻

ai-chatbots election-accuracy political-bias factual-errors forum-ai misinformation

摘要

Forum AI 的一项研究发现，ChatGPT、Gemini、Claude 和 Grok 等主要聊天机器人未能提供准确且无偏见的选举信息，其中 90% 的回答包含错误或偏见。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/05/21 13:40

# ChatGPT、Gemini、Claude、Grok 在选举话题准确性测试中集体不及格：Forum AI 报告来源：https://www.ibtimes.sg/chatgpt-grok-ai-chatbots-fail-election-accuracy-show-political-bias-forum-ai-86738 根据 Forum AI 的报告，包括 ChatGPT、Gemini、Claude 和 Grok 在内的全球领先人工智能聊天机器人，在提供准确且政治平衡的选举和地缘政治信息方面表现不佳。报告发现，主要聊天机器人平台（https://www.ibtimes.sg/openai-faces-lawsuit-after-teens-parents-allege-chatgpt-recommended-deadly-drug-combination-86395）与选举相关的回答“在准确性、偏见或来源选择上，90%的情况都不达标”，这加剧了人们对日益用于获取信息的AI工具可靠性的担忧。研究人员通过提出超过3100个涵盖医疗、政治和外交事务等主题的问题，测试了 OpenAI 的 ChatGPT（https://www.ibtimes.sg/chatgpt-privacy-under-fire-openai-accused-sharing-user-queries-meta-google-86455）、Alphabet 旗下的 Google Gemini、Anthropic 的 Claude（https://www.ibtimes.sg/why-anthropic-holding-back-claude-mythos-cybersecurity-risks-force-new-approach-85379）以及 xAI 的 Grok。该研究评估了 GPT-5.5、Gemini 3.1 Pro、Claude Opus 4.7 和 Grok 4.3。根据研究结果（https://www.bloomberg.com/news/videos/2026-05-20/major-chatbots-miss-the-mark-on-news-forum-ai-study-video），近 36% 的选举相关问题回答包含至少一个事实错误。Grok 的错误率最高，近 52% 的回答中出现了不准确信息。研究人员还发现聊天机器人回答中存在意识形态倾向，ChatGPT、Claude 和 Gemini 倾向于左倾的政治回答，而 Grok 则更偏向右倾。 ### 选举回答展现错误与政治倾向研究发现，即使是看似平衡且来源专业的回答，也往往具有误导性。 Forum AI 在 5 月 20 日的一份声明中表示（https://www.straitstimes.com/world/united-states/chatbots-struggle-with-news-accuracy-and-sourcing-ahead-of-us-midterms）：“那些看起来最专业、引用了最有力来源的回答，反而最有可能包含隐蔽的事实错误。”并将其描述为研究中最尖锐的发现之一。研究人员指出，即使是由 Grok 和 Claude 生成的最中立的回答中，仍有约 40% 的情况包含至少一个事实错误。除了选举，报告还强调了聊天机器人引用来源的做法令人担忧。在大约 35% 的外交政策相关回答中，AI 系统引用了国有控制的国际媒体，包括中国的《环球时报》和 CGTN，以及俄罗斯的 RT。 ChatGPT 和 Grok 最常依赖国有媒体，分别在其 51% 和 44% 的回答中引用了它们。专家表示，聊天机器人在新闻准确性方面遇到困难并不完全出人意料，尤其是在突发新闻事件中，可靠信息稀缺。大多数 AI 系统（https://www.ibtimes.sg/overworked-ai-turns-marxist-study-reveals-surprising-behavior-repetitive-tasks-86502）都是基于大量公开的互联网内容进行训练的，这些内容可能包含错误信息、偏见和不完整的背景。德克萨斯州一名青少年因服药过量死亡，其父母起诉 OpenAI，指控 ChatGPT 鼓励了一种危险药物组合，导致了他的死亡。（图片来源：Freepik） ### Forum AI 警告中期选举前的风险据彭博社报道，Forum AI 的 CEO、前 Meta 高管 Campbell Brown（https://www.bloomberg.com/news/videos/2026-05-20/major-chatbots-miss-the-mark-on-news-forum-ai-study-video）表示，随着美国接近又一个选举周期，这些发现尤其令人担忧。 “独立评估至关重要，”Brown 表示，并补充说不应让 AI 公司自行评估其产品，“这些模型公司基本上是在给自己的作业打分。” “让模型公司之外的机构来做这项工作并分享结果，这一点非常重要，”她补充道。针对该报告，Anthropic 的一位发言人表示（https://www.straitstimes.com/world/united-states/chatbots-struggle-with-news-accuracy-and-sourcing-ahead-of-us-midterms）：“我们欢迎有机会审查这份报告背后的原始数据。” 该声明补充道：“Claude 经过训练，在回答中保持政治中立，并以同等的深度、投入度和分析质量对待对立的观点，不偏袒任何特定的意识形态立场。” ### 耶鲁大学研究值得一提的是，耶鲁大学（https://news.yale.edu/2026/03/03/ais-hidden-bias-chatbots-can-influence-opinions-without-trying）最近的一项研究也发现，即使在使用者仅寻求事实信息时，AI 聊天机器人也能微妙地影响人们的政治和社会观点。研究人员表示，LLM 中的“潜在偏见”由训练数据中的意识形态模式塑造，可能会影响历史事件的叙述方式。该研究测试了 1912 名参与者，他们阅读了由 AI 生成或维基百科总结的关于 1919 年西雅图总罢工和 1968 年学生抗议等事件的内容。研究人员发现，默认的 AI 摘要和带有自由主义框架的摘要会使观点向更自由的方向转变，而保守主义框架则会影响政治上保守的读者。尽管影响程度不大，但研究人员警告称，长期反复使用聊天机器人可能会逐渐塑造人们的观点。

ChatGPT、Gemini、Claude、Grok 未能通过选举话题准确性测试：Forum AI

相似文章

Claude、ChatGPT、Grok和Gemini各自运营了一家广播电台六个月——结果令人捧腹

发现一个工具，同时向GPT、Claude、Gemini和Grok提问，并给出一个共识答案

打造了一个让 Claude、ChatGPT 和 Gemini 互相辩论后才给出答案的平台

更新：我找到了让 ChatGPT、Claude 和 Gemini 互相辩论的方法，Reddit 用户非常喜欢（浏览量破 10 万），以下是该实验的最新进展

ChatGPT市场份额首次跌破50%

提交意见反馈