我测试了5个AI模型对同一新闻文章的摘要。它们都继承了原文的框架,即使试图保持中立。我是新手,请多包涵

Reddit r/ArtificialInteligence 新闻

摘要

一位用户测试了五个AI模型对移民新闻文章的摘要,发现所有模型都继承了原文的框架,看似中立,但通过强调和省略来塑造读者的理解。这项研究规模小且是探索性的,数据公开可用。

我做了一个小研究,测试ChatGPT、Claude、Gemini、Grok和DeepSeek是否以相同方式总结新闻。剧透:它们不一样,原因有点令人担忧。设置很简单。六篇移民新闻文章(左翼、中间、右翼来源),对每个模型使用相同的中立提示,所有三十篇摘要手动编码,评估中立性、准确性、完整性、情感语言和框架。我发现所有五个模型都一致地继承了原文的框架。当我给它们一篇左倾文章时,摘要被编码为更负面。右倾文章?摘要中的框架更正面。中间来源?结果全线干净。令人毛骨悚然的是,这些摘要听起来确实中立。如果你只读它们,它们似乎很平衡。但它们通过从原文继承的强调、省略和语气来塑造读者的理解。Claude整体表现最好,Grok在完整性方面很强,ChatGPT有时偷工减料。**重要说明:** 这只有六篇文章。一个编码者。一个主题领域。你完全不能将之推广为“所有AI都有偏见”。这是探索性工作,提出了一个问题,而不是任何证据。但我认为这个问题值得问:当人们通过AI摘要消费新闻时,他们得到的是客观性,还是通过听起来中立的模型洗白的原文框架?所有数据都是开放的。Excel工作簿包含每个摘要、我的编码细则、我的笔记。请挑刺。用不同的文章测试。让我知道这个模式是否成立,还是我只是看到了我想看的。包含所有数据的完整仓库:[GITHUB REPO](https://github.com/FreakyDevelopers/Political-Framing-in-AI-News-Summaries/tree/main) 欢迎提问方法论问题或对编码方法提出批评。
查看原文

相似文章

使用可解释语言特征检测AI生成假新闻的跨提示词泛化研究

arXiv cs.CL

来自肯尼索州立大学的研究人员利用可解释语言特征(词汇多样性、可读性、情感特征)对检测AI生成假新闻的跨提示词泛化能力展开研究。在一种提示策略上训练、在另一种提示策略上测试的随机森林分类器取得了0.988至1.000的AUC值,表明这些特征能够捕捉AI生成文本的稳定且可泛化的属性。