toxicity-reduction

#toxicity-reduction

LLM解毒：直接从数据集入手

arXiv cs.CL ↗ · 2026-04-22 缓存

研究者提出HSPD，一种语料库级解毒流程，可在保留语义的前提下重写预训练数据中的有毒片段，在GPT-2 XL、LLaMA-2、OPT与Falcon模型上实现SOTA毒性降低。

0 人收藏 0 人点赞

#toxicity-reduction

arXiv cs.CL ↗ · 2026-04-20 缓存

本文提出 CAP-TTA，一个测试时适应框架，利用由偏差风险分数触发的预调节 LoRA 更新，在叙述生成过程中缓解大语言模型的毒性和偏差问题，实现更快的优化和相比标准基线更好的流畅性。

0 人收藏 0 人点赞