TROPT:一个统一和推进离散文本优化的开放框架
摘要
TROPT是一个开源框架,统一了离散文本触发优化,标准化了在LLM越狱和模型可解释性等领域中的开发与执行。它包含超过15种优化器和30个配方,降低了采用和推进的门槛。
查看缓存全文
缓存时间: 2026/06/23 21:44
论文页 - TROPT:一个用于统一和推进离散文本优化的开放框架
来源:https://huggingface.co/papers/2606.23496
摘要
一个统一的开放源码框架,用于离散文本触发优化,标准化了跨各种领域和应用的优化策略的开发与执行。
离散文本触发优化(https://huggingface.co/papers?q=Discrete%20text-trigger%20optimization)——搜索当被模型摄入时能引导其达成指定目标的文本序列——支撑着模型红队测试(https://huggingface.co/papers?q=model%20red-teaming)(例如,大语言模型越狱(https://huggingface.co/papers?q=LLM%20jailbreaks)),以及审计(https://huggingface.co/papers?q=auditing)和可解释性(https://huggingface.co/papers?q=interpretability)。然而,当前离散优化器的状态阻碍了它们的采用和进步。首先,现有的优化器(即使有开源)分散在特定模型、目标和问题领域的研究代码库中。其次,优化器变体激增,每种都需要工程开销才能使用或扩展,并且难以进行直接比较。这些因素共同提高了在现有或新领域采用优化器,以及通过新策略推进它们的门槛。我们通过TROPT解决了这些差距,这是第一个统一离散优化器执行并标准化其单一接口下开发的开源框架。TROPT使得通过替换任何组件——模型、目标和优化器——来定制端到端优化配方(https://huggingface.co/papers?q=optimization%20recipes)变得容易,从而将其覆盖范围扩展到各个领域和新的应用。TROPT目前附带30多个优化配方(https://huggingface.co/papers?q=optimization%20recipes)——涵盖了诸如越狱和探测模型内部等应用——这些配方基于15多个优化器(跨越白盒到黑盒访问(https://huggingface.co/papers?q=black-box%20access))和15多个损失函数,从基础方法到最先进方法。为展示其实用性,我们在几项研究中利用了TROPT:(i)受控的大规模实验,比较和增强用于大语言模型越狱(https://huggingface.co/papers?q=LLM%20jailbreaks)的优化策略(https://huggingface.co/papers?q=optimization%20strategies),揭示了强大但未被充分采纳的技术;(ii)将优化器从一个领域(例如,大语言模型越狱)迁移到新领域(例如,语料投毒嵌入模型)。总的来说,TROPT显著降低了采用和推进离散文本优化的门槛。
查看arXiv页面(https://arxiv.org/abs/2606.23496)查看PDF(https://arxiv.org/pdf/2606.23496)项目页面(https://tropt.dev/)GitHub5(https://github.com/matanbt/TROPT)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.23496)
在您的代理中获取这篇论文:
hf papers read 2606.23496
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.23496 以从本页链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.23496 以从本页链接。
引用此论文的空间0
没有空间链接此论文
在空间 README.md 中引用 arxiv.org/abs/2606.23496 以从本页链接。
包含此论文的收藏0
没有收藏包含此论文
添加此论文到一个收藏(https://huggingface.co/new-collection)以从本页链接。
相似文章
optimize_anything:用于优化任意文本参数的通用API
本文介绍了optimize_anything,一个基于LLM的通用文本工件优化系统,在包括智能体架构发现、调度、CUDA内核生成和装箱在内的多种任务上取得了最先进的结果,展示了通用文本优化的能力。
TRL v1.0:紧跟领域发展的后训练库
Hugging Face 发布 TRL v1.0,这是其训练后库的重大更新,将其从一个研究代码库转变为稳定、生产就绪的工具,支持 PPO 和 DPO 等超过 75 种训练方法。
文本作为严肃的优化层(8分钟阅读)
本文认为,文本优化——修改提示、上下文、记忆和检索——应被视为与权重优化并列的合法学习机制,突出了其样本效率和通过更新时计算进行扩展的能力。
TriVAL: 一个用于忠实自动优化建模的三重验证框架
TriVAL 引入了一个三重验证框架,在自动优化建模的三个阶段(语义规范、数学公式、代码生成)执行显式验证以提高忠实性,并提出了 NL4COP,一个用于组合优化问题的新基准。
TMPO:用于多样且高效扩散模型对齐的轨迹匹配策略优化
本文介绍了轨迹匹配策略优化(TMPO),这是一种扩散模型对齐方法。它通过匹配轨迹级奖励分布而非最大化标量奖励,解决了奖励黑客攻击和视觉模态崩溃问题。