标签
来自Qwen背后的阿里巴巴团队的GEOALIGN指出,LLM强化学习中的不稳定性通常源于少数不良的rollout导致更新方向冲突,并提出了一种基于方向一致性来筛选rollout的轻量级方法,从而提升训练稳定性和性能。
本文分析了隐式推理模型(LRM),并论证隐状态中的可观测模式并非推理的因果解释;它倡导在可解释性研究中采用匹配对照和因果测试。
本文揭示了低比特KV缓存量化会悄无声息地破坏经过指令微调的大语言模型的安全对齐,并提出了一种诊断方法(PCR)对失效模式进行分类,以及一种无需训练的缓解方案,可恢复高达97%的丢失对齐。
介绍贡献权重(Contribution Weights),这是一种基于投影的度量,它考虑了注意力权重、值向量的幅度和方向对齐,从而更准确地衡量Transformer大语言模型中的token重要性,揭示了注意力阱(attention sinks)的主动功能角色。
本文通过将干预分解为角度和径向分量,分析了语言模型中的线性激活转向。研究发现概念主要编码在角度结构中,但范数调整对稳定性至关重要,支持球形转向方法的同时表明加性系数混淆了几何特性。
本文通过几何视角审视机器学习模型中的反事实行为,表明预测性能相似的模型,由于决策边界接近性与局部数据支撑之间的交互作用,其反事实结果可能大相径庭。研究结果将反事实行为视为与预测性能不同的独立维度,对模型选择及反事实解释方法的可靠性具有启示意义。
本文从几何角度分析了为何作为裁判的LLM彼此之间高度一致,但与人类仅弱相关,发现LLM间共识在主观评分标准上反映的是坍塌子空间,而非真正的人类对齐。基于人类数据的后验校准提高了对齐,但即使经过校准的LLM也未达到人类的可靠性。
本文提出一个Jacobian-PCA-Grassmann框架,用于分析混合专家(MoE)Transformer中专家专业化的几何结构。研究发现,专家表现出强烈的功能去相关,而其表示存在重叠,并且路由稀疏性显著影响这一几何结构。
开发者构建了 Arc Gate——一款基于 Fisher 信息流形几何的 LLM 监控代理,可在会话层面检测提示注入攻击,通过追踪 t 值相对相变阈值 t*=1.2247 的变化,识别 Crescendo 式渐进操控,而非逐句关键词匹配。
# 论文页面 - 单细胞CRISPR扰动的几何一致性揭示调控架构并预测细胞应激 来源:[https://huggingface.co/papers/2604.16642](https://huggingface.co/papers/2604.16642) ## 摘要 尽管基因组工程在序列层面已达成卓越精度,预测扰动后细胞将占据的转录组状态仍是未解难题。单细胞CRISPR筛选可测量细胞偏离未扰动状态的程度,但这一效应幅度忽略了一个根本问题:细胞是否协同移动?若一个扰动将细胞沿共同轨迹一致推进,而另一个将其分散到表达空间各处,即使幅度相同,结果也可能截然不同。