标签
本文介绍了 idSCD,一种使用语义相关描述符来识别数据集是否用于模型训练的白盒方法,在多种设置下均优于现有基线。
描述了一个针对AI智能体的白盒记忆系统,每个条目都可见且可编辑,并包含一个'梦境'功能,用于夜间记忆整合与重组,且支持一键回滚。
本文介绍了语义表示攻击(SRA),这是一种新颖的与大型语言模型无关的方法,它针对恶意语义表示而非确切文本进行优化,在多个开源模型中实现了高攻击成功率。