应对现实世界中不良内容检测的整体方法

OpenAI Blog 论文

摘要

OpenAI 展示了一套全面的框架,通过精心设计分类体系、控制数据质量、构建主动学习流程以及采用防止过拟合的技术来构建鲁棒的内容审核系统。该方法能够检测包括性内容、仇恨言论、暴力和自伤在内的多个类别的不良内容,性能超越现有的现成模型。

我们提出了一套整体方法来构建一个鲁棒且实用的自然语言分类系统,用于现实世界中的内容审核。
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:47

# 真实场景下不良内容检测的整体方法 来源:https://openai.com/index/a-holistic-approach-to-undesired-content-detection-in-the-real-world/ 我们提出了一种整体方法来构建强大且实用的自然语言分类系统,用于真实场景的内容审核。这样的系统成功依赖于一系列精心设计和执行的步骤,包括内容分类体系和标注指南的设计、数据质量控制、用于捕捉罕见事件的主动学习流程,以及多种方法来增强模型鲁棒性并避免过拟合。我们的审核系统经过训练可以检测多种不良内容,包括色情内容、仇恨内容、暴力、自伤和骚扰。这种方法适用于各种不同的内容分类体系,可用于创建性能超越现成模型的高质量内容分类器。

相似文章

全新改进的内容审核工具

OpenAI Blog

# 全新改进的内容审核工具 来源: [https://openai.com/index/new-and-improved-content-moderation-tooling/](https://openai.com/index/new-and-improved-content-moderation-tooling/) 为了帮助开发者保护其应用免受潜在滥用,我们推出了更快、更准确的 [Moderation 端点(在新窗口中打开)](https://beta.openai.com/docs/api-reference/moderations)。该端点为 OpenAI API 开发者免费提供了 [基于 GPT 的](ht

懂的都懂(但AI不懂):自动内容审核未能捕捉社群对去污名化用语的多元态度

arXiv cs.CL

# 懂的都懂(但AI不懂):自动内容审核未能捕捉社群对去污名化用语的多元态度 来源:[https://arxiv.org/html/2604.16654](https://arxiv.org/html/2604.16654) Christina Chance [christinachance315@gmail\.com](https://arxiv.org/html/2604.16654v1/mailto:[email protected]) [0000\-0002\-8254\-0670](https://orcid.org/0000-0002-8254-0670) 加州大学洛杉矶分校 洛杉矶 加利福尼亚州 美国 Rebecca Pattichis 独立研究员 Alb

使用 GPT-4 进行内容审核

OpenAI Blog

OpenAI 介绍了如何使用 GPT-4 进行内容审核,通过让政策专家在数小时内(而非数月)开发和完善内容政策,采用迭代方式将 GPT-4 的判断与人工标签进行比对。这种方法减少了手动审核的负担,同时在复杂情况处理和偏见监控中保持人工参与。

打击网络儿童性剥削和虐待

OpenAI Blog

OpenAI宣布推出全面的政策和技术措施,以防止其模型被用于儿童性剥削和虐待,包括部署前保护、用户监测、开发者监管以及与NCMEC和Thorn等组织的合作。

AI生成的社交机器人内容的对抗性创建与检测

arXiv cs.CL

本文提出了一种对抗性方法,用于创建和检测AI生成的社交机器人内容,并整理了一个多语言、跨平台的人类与AI消息配对数据集。在这种对抗性数据上进行训练,能够在实际环境中显著超越现有的基于内容的机器人检测模型。