全新改进的内容审核工具

OpenAI Blog 产品

摘要

# 全新改进的内容审核工具 来源: [https://openai.com/index/new-and-improved-content-moderation-tooling/](https://openai.com/index/new-and-improved-content-moderation-tooling/) 为了帮助开发者保护其应用免受潜在滥用,我们推出了更快、更准确的 [Moderation 端点(在新窗口中打开)](https://beta.openai.com/docs/api-reference/moderations)。该端点为 OpenAI API 开发者免费提供了 [基于 GPT 的](ht

我们推出了全新改进的内容审核工具。Moderation 端点改进了我们之前的内容过滤器,现已免费向 OpenAI API 开发者提供。
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:55

# 新的和改进的内容审核工具 来源:https://openai.com/index/new-and-improved-content-moderation-tooling/ 为了帮助开发者保护他们的应用程序免受可能的滥用,我们推出了速度更快、准确性更高的 Moderation 端点(https://beta.openai.com/docs/api-reference/moderations)。该端点为 OpenAI API 开发者提供免费访问权限,可使用基于 GPT(https://openai.com/index/customized-gpt-3/) 的分类器来检测不需要的内容——这是使用 AI 系统(https://openai.com/index/critiques/)来协助人类监管这些系统的一个例子。我们还发布了一份技术论文(https://arxiv.org/abs/2208.03274),描述了我们的方法论,以及用于评估的数据集(https://github.com/openai/moderation-api-release)。 当给定文本输入时,Moderation 端点会评估内容是否涉及色情、仇恨、暴力或自伤宣传——这些都是我们内容政策(https://beta.openai.com/docs/usage-guidelines/content-policy)禁止的内容。该端点经过训练可以快速、准确地工作,并能够在各种应用中表现稳健。重要的是,即使在大规模部署给用户时,这也降低了产品"说错话"的可能性。因此,AI 可以在敏感的领域(如教育)中解锁其好处,而在这些领域中它原本无法被自信地使用。

相似文章

使用新的多模态审核模型升级审核 API

OpenAI Blog

# 使用新的多模态审核模型升级审核 API 来源:[https://openai.com/index/upgrading-the-moderation-api-with-our-new-multimodal-moderation-model/](https://openai.com/index/upgrading-the-moderation-api-with-our-new-multimodal-moderation-model/) OpenAI 我们推出了一个基于 GPT-4o 构建的新模型,在检测有害文本和图像方面更加准确,使开发者能够构建更强大的审核系统。今天我们推出一个新的审核模型 `om

应对现实世界中不良内容检测的整体方法

OpenAI Blog

OpenAI 展示了一套全面的框架,通过精心设计分类体系、控制数据质量、构建主动学习流程以及采用防止过拟合的技术来构建鲁棒的内容审核系统。该方法能够检测包括性内容、仇恨言论、暴力和自伤在内的多个类别的不良内容,性能超越现有的现成模型。

使用 GPT-4 进行内容审核

OpenAI Blog

OpenAI 介绍了如何使用 GPT-4 进行内容审核,通过让政策专家在数小时内(而非数月)开发和完善内容政策,采用迭代方式将 GPT-4 的判断与人工标签进行比对。这种方法减少了手动审核的负担,同时在复杂情况处理和偏见监控中保持人工参与。

帮助开发者构建更安全的青少年AI体验

OpenAI Blog

OpenAI发布了基于提示的安全策略和开放权重的gpt-oss-safeguard模型,帮助开发者构建适合青少年的AI体验,涵盖图形内容、有害行为和危险活动等风险。

OpenAI API

OpenAI Blog

OpenAI 宣布发布 API,用于通过通用文本界面访问其 AI 模型。该 API 以私密测试版的形式推出,采用严格的安全措施,包括强制性的生产审查和内容限制,以防止有害用途。