标签
本文提出了场景抽象(Scene Abstraction)框架,该框架利用大语言模型的少样本提示,构建单词在上下文中引发的解释性场景的结构化表示。作者引入了COCA-Scenes数据集,包含520个使用实例,并提供了实证证据表明场景是可可靠识别的,且比替代方案更符合人类解释。
本文介绍了语义表示攻击(SRA),这是一种新颖的与大型语言模型无关的方法,它针对恶意语义表示而非确切文本进行优化,在多个开源模型中实现了高攻击成功率。