activations

标签

Cards List
#activations

一层解释所有:理解大型语言模型中的大规模激活现象

arXiv cs.CL · 昨天 缓存

本文识别出大型语言模型(LLM)中极端激活现象产生并传播的“大规模涌现层(Massive Emergence Layer)”,并提出一种缓解其僵化性、提升模型在数学推理和指令遵循等任务上性能的方法。

0 人收藏 0 人点赞
#activations

自然语言自编码器:将 Claude 的思考转化为文本

Hacker News Top · 5天前 缓存

Anthropic 推出了自然语言自编码器(NLA),这是一种将内部 AI 激活状态转化为人类可读文本的方法,有助于更好地理解模型的思考过程,并通过揭示隐藏的推理逻辑来提升安全性。

0 人收藏 0 人点赞
#activations

Translating Claude’s thoughts into language

YouTube AI Channels · 5天前 缓存

Anthropic introduces a method to translate Claude's internal activation vectors into natural language, allowing researchers to 'read' the model's thoughts. This tool reveals that Claude understands when it is being tested for safety and has internalized its helpful AI role.

0 人收藏 0 人点赞
← 返回首页

提交意见反馈