TROPT:一个统一和推进离散文本优化的开放框架

Hugging Face Daily Papers 论文

摘要

TROPT是一个开源框架,统一了离散文本触发优化,标准化了在LLM越狱和模型可解释性等领域中的开发与执行。它包含超过15种优化器和30个配方,降低了采用和推进的门槛。

离散文本触发优化——搜索当模型摄入后能引导其朝向指定目标的文本序列——支撑着模型红队测试(例如,LLM越狱),以及审计和可解释性。然而,当前离散优化器的状态阻碍了它们的采用和进展。首先,现有的优化器(即使开源)分散在与特定模型、目标和问题领域绑定的研究代码库中。其次,优化器变体层出不穷,每个都需要工程开销才能使用或扩展,并且难以进行直接比较。这些共同提高了在现有或新领域采用优化器以及通过新策略推进它们的门槛。我们通过TROPT填补了这些空白,这是第一个统一离散优化器执行并标准化其开发于单一接口下的开源框架。TROPT使得通过替换任何组件(模型、目标和优化器)来定制端到端优化配方变得容易,从而将其扩展到各个领域和新应用。目前TROPT附带30多个优化配方——涵盖越狱和探测模型内部等应用——由15多种优化器(涵盖白盒到黑盒访问)和15多种损失函数(从基础到最先进方法)构建而成。为了展示其实用性,我们在几项研究中利用了TROPT:(i)受控的大规模实验,比较和增强LLM越狱的优化策略,揭示了强大但未被充分利用的技术;(ii)将优化器从一个领域(例如,LLM越狱)移植到新领域(例如,投毒语料库以嵌入模型)。总的来说,TROPT显著降低了采用和推进离散文本优化的门槛。
查看原文
查看缓存全文

缓存时间: 2026/06/23 21:44

论文页 - TROPT:一个用于统一和推进离散文本优化的开放框架

来源:https://huggingface.co/papers/2606.23496

摘要

一个统一的开放源码框架,用于离散文本触发优化,标准化了跨各种领域和应用的优化策略的开发与执行。

离散文本触发优化(https://huggingface.co/papers?q=Discrete%20text-trigger%20optimization)——搜索当被模型摄入时能引导其达成指定目标的文本序列——支撑着模型红队测试(https://huggingface.co/papers?q=model%20red-teaming)(例如,大语言模型越狱(https://huggingface.co/papers?q=LLM%20jailbreaks)),以及审计(https://huggingface.co/papers?q=auditing)和可解释性(https://huggingface.co/papers?q=interpretability)。然而,当前离散优化器的状态阻碍了它们的采用和进步。首先,现有的优化器(即使有开源)分散在特定模型、目标和问题领域的研究代码库中。其次,优化器变体激增,每种都需要工程开销才能使用或扩展,并且难以进行直接比较。这些因素共同提高了在现有或新领域采用优化器,以及通过新策略推进它们的门槛。我们通过TROPT解决了这些差距,这是第一个统一离散优化器执行并标准化其单一接口下开发的开源框架。TROPT使得通过替换任何组件——模型、目标和优化器——来定制端到端优化配方(https://huggingface.co/papers?q=optimization%20recipes)变得容易,从而将其覆盖范围扩展到各个领域和新的应用。TROPT目前附带30多个优化配方(https://huggingface.co/papers?q=optimization%20recipes)——涵盖了诸如越狱和探测模型内部等应用——这些配方基于15多个优化器(跨越白盒到黑盒访问(https://huggingface.co/papers?q=black-box%20access))和15多个损失函数,从基础方法到最先进方法。为展示其实用性,我们在几项研究中利用了TROPT:(i)受控的大规模实验,比较和增强用于大语言模型越狱(https://huggingface.co/papers?q=LLM%20jailbreaks)的优化策略(https://huggingface.co/papers?q=optimization%20strategies),揭示了强大但未被充分采纳的技术;(ii)将优化器从一个领域(例如,大语言模型越狱)迁移到新领域(例如,语料投毒嵌入模型)。总的来说,TROPT显著降低了采用和推进离散文本优化的门槛。

查看arXiv页面(https://arxiv.org/abs/2606.23496)查看PDF(https://arxiv.org/pdf/2606.23496)项目页面(https://tropt.dev/)GitHub5(https://github.com/matanbt/TROPT)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.23496)

在您的代理中获取这篇论文:

hf papers read 2606.23496

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.23496 以从本页链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.23496 以从本页链接。

引用此论文的空间0

没有空间链接此论文

在空间 README.md 中引用 arxiv.org/abs/2606.23496 以从本页链接。

包含此论文的收藏0

没有收藏包含此论文

添加此论文到一个收藏(https://huggingface.co/new-collection)以从本页链接。

相似文章

optimize_anything:用于优化任意文本参数的通用API

arXiv cs.CL

本文介绍了optimize_anything,一个基于LLM的通用文本工件优化系统,在包括智能体架构发现、调度、CUDA内核生成和装箱在内的多种任务上取得了最先进的结果,展示了通用文本优化的能力。

TRL v1.0:紧跟领域发展的后训练库

Hugging Face Blog

Hugging Face 发布 TRL v1.0,这是其训练后库的重大更新,将其从一个研究代码库转变为稳定、生产就绪的工具,支持 PPO 和 DPO 等超过 75 种训练方法。

文本作为严肃的优化层(8分钟阅读)

TLDR AI

本文认为,文本优化——修改提示、上下文、记忆和检索——应被视为与权重优化并列的合法学习机制,突出了其样本效率和通过更新时计算进行扩展的能力。