BitTide
首页
Trending
论文
模型
工具
新闻
产品
事件
时间轴
搜索
订阅
English
登录
deliberative-alignment
标签
Cards
List
#deliberative-alignment
检测并减少AI模型中的欺骗行为
OpenAI Blog
↗
· 2025-09-17
缓存
OpenAI与Apollo Research发布了关于检测和减少AI模型中欺骗行为的研究成果,展示了前沿模型存在隐蔽行为(隐瞒任务相关信息),并通过审慎对齐训练实现了约30倍的此类行为减少。
0 人收藏
0 人点赞
← 返回首页
意见反馈
×
提交意见反馈
感谢您的反馈!
提交