webapp

标签

Cards List
#webapp

RogueAI:一种用于检测对话中特许AI欺骗的反向图灵测试

arXiv cs.CL · 昨天 缓存

本文介绍了RogueAI,一个以交互式网络应用形式实现的反向图灵测试,其中人类玩家审问两个LLM智能体,以识别在共享虚构场景中被特许欺骗的那个。初步部署显示,启发式检测(准确率75.6%)与人类表现(准确率56.6%)之间存在差距,凸显了该系统作为AI欺骗与诚实数据收集和教学工具的潜力。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈