llm-analysis

标签

Cards List
#llm-analysis

Twitch聊天中的毒性:基于LLM的跨游戏社区分析

arXiv cs.CL · 2026-05-26 缓存

本文使用预训练LLM进行零样本分类,分析了约2000万条Twitch聊天信息,涵盖七种游戏类型,发现2.4%的消息具有毒性,其中MOBA游戏的毒性率最高(3.2%),体育游戏最低(2%)。研究还发现,同一类型内不同游戏之间的毒性分布存在显著差异。

0 人收藏 0 人点赞
#llm-analysis

Qwen-Scope:将稀疏特征转化为大语言模型的开发工具

arXiv cs.CL · 2026-05-13 缓存

本文介绍了 Qwen-Scope,这是一套在 Qwen3 和 Qwen3.5 模型上训练的稀疏自编码器(SAE)工具包,旨在实现机械可解释性分析与干预。该工具包发布了涵盖密集和 MoE 骨干网络的 14 组 SAE 权重,为残差流激活提供了稀疏表示。

0 人收藏 0 人点赞
#llm-analysis

对齐更优,多样性下降?分析两代大语言模型的语法与词汇特征

arXiv cs.CL · 2026-05-08 缓存

这篇学术论文分析了两代大语言模型与人类撰写新闻文本相比的句法和词汇多样性,发现较新的对齐模型表现出多样性降低的现象。

0 人收藏 0 人点赞
#llm-analysis

Gemma Scope 2:助力AI安全社区深入理解复杂的语言模型行为

Google DeepMind Blog · 2025-12-16 缓存

DeepMind发布Gemma Scope 2,这是一套面向Gemma 3模型家族的开放可解释性工具套件,旨在帮助AI安全社区理解和调试幻觉、越狱等复杂的语言模型行为。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈