标签
本文使用预训练LLM进行零样本分类,分析了约2000万条Twitch聊天信息,涵盖七种游戏类型,发现2.4%的消息具有毒性,其中MOBA游戏的毒性率最高(3.2%),体育游戏最低(2%)。研究还发现,同一类型内不同游戏之间的毒性分布存在显著差异。
本文介绍了 Qwen-Scope,这是一套在 Qwen3 和 Qwen3.5 模型上训练的稀疏自编码器(SAE)工具包,旨在实现机械可解释性分析与干预。该工具包发布了涵盖密集和 MoE 骨干网络的 14 组 SAE 权重,为残差流激活提供了稀疏表示。
这篇学术论文分析了两代大语言模型与人类撰写新闻文本相比的句法和词汇多样性,发现较新的对齐模型表现出多样性降低的现象。
DeepMind发布Gemma Scope 2,这是一套面向Gemma 3模型家族的开放可解释性工具套件,旨在帮助AI安全社区理解和调试幻觉、越狱等复杂的语言模型行为。