transformer

#transformer

Flexformer：具有可学习注意力核的灵活线性Transformer

arXiv cs.LG ↗ · 10小时前缓存

Flexformer提出了一种灵活的线性Transformer，使用随机傅里叶特征实现完全可学习的注意力核，在语言建模和序列分类任务中达到线性复杂度，同时匹配或超越softmax注意力的性能。

0 人收藏 0 人点赞

#transformer

MultiHashFormer：基于哈希的生成式语言模型

arXiv cs.CL ↗ · 10小时前缓存

MultiHashFormer是一种基于哈希的生成式语言模型，它通过将每个词元表示为独特的哈希签名，实现了参数高效的自回归。在1亿、10亿和30亿参数规模上，该模型均优于标准Transformer语言模型，并且能够在参数不变的情况下支持多语言词汇扩展。

0 人收藏 0 人点赞

#transformer

从黑箱到临床洞察：一个用于语音认知障碍检测的多阶段可解释框架

arXiv cs.CL ↗ · 10小时前缓存

本文提出一个多阶段可解释框架，结合基于SHAP的词元归因、理论指导的语言特征以及LLaMA-3.1-70B-Instruct大语言模型推理，用于解释基于Transformer的语音模型在认知障碍检测中的表现，取得了良好的临床一致性及高可用性评分。

0 人收藏 0 人点赞

#transformer

历史文本中命名实体识别的时间融合策略研究

arXiv cs.CL ↗ · 10小时前缓存

本文系统研究了如何将时间元数据结构性地嵌入到面向历史文本的命名实体识别（NER）模型中。通过采用早期或晚期融合机制注入绝对和相对时间表示的实验表明，晚期融合策略在法语和德语历史数据集上展现出更稳健的性能。

0 人收藏 0 人点赞

#transformer

通过层特定位置嵌入缩放缓解Transformer中的位置偏差

arXiv cs.CL ↗ · 10小时前缓存

介绍LPES，一种层特定位置嵌入缩放方法，通过使用贝塞尔曲线的遗传算法为每层分配不同的缩放因子，缓解LLM中的“中间丢失”问题，无需微调或增加延迟即可实现高达11.2%的准确率提升。

0 人收藏 0 人点赞

#transformer

Prism Transformer: 渐进式头调度用于层级注意力处理

arXiv cs.LG ↗ · 10小时前缓存

Prism Transformer 用渐进式头调度替代了统一的多头注意力机制，该调度在层间逐步增加头的数量，从而在不增加参数或计算量的情况下实现从局部到全局的层级结构。在124M、354M和757M三个模型规模上，它在语言建模和零样本基准测试中始终优于标准Transformer。

0 人收藏 0 人点赞

#transformer

The Context-Ready Transformer

arXiv cs.CL ↗ · 10小时前缓存

本文介绍了上下文就绪 Transformer，一种循环架构，在 Transformer 块之前对 token 进行预上下文化，在匹配或超越标准 Transformer 性能的同时，实现了显著的推理加速（例如在 A100 上达到 1.7 倍），且层数更少。

0 人收藏 0 人点赞

#transformer

@stanfordnlp: CS336的“问题”不在于大约22小时的视频，而在于完成作业所需的大量时间。…

X AI KOLs Following ↗ · 18小时前缓存

斯坦福大学的CS336课程宣布开课，从零开始教授语言建模，包含密集的实践作业，涵盖分词器、Transformer、数据和对齐。

1 人收藏 1 人点赞

#transformer

Show HN: NanoEuler – 从头开始用纯C/CUDA实现的GPT-2规模模型

Hacker News Top ↗ · 19小时前缓存

NanoEuler 是一个完全用纯 C/CUDA 从头构建的 GPT-2 规模语言模型，不依赖任何机器学习库，包括手写的前向/反向传播、字节级 BPE 分词器和训练流水线。该项目是一个教育示范，展示了 Transformer 训练背后的工程原理，可在单个 RTX 4070 上运行。

0 人收藏 0 人点赞

#transformer

我缩小了一个Transformer，直到每个数字都适配到屏幕上，并且让权重可编辑 [R]

Reddit r/MachineLearning ↗ · 昨天

一个交互式网页，可视化了一个小型可编辑权重的Transformer，让用户实时看到权重变化如何影响预测，旨在帮助开发者理解LLM的前向传播过程。

0 人收藏 0 人点赞

#transformer

@amitiitbhu: Q × Kᵀ 告诉模型每个词与其他词的相关性。Softmax 将其转换为概率。V 提供…

X AI KOLs Timeline ↗ · 2天前缓存

一条推文解释了Transformer模型中注意力机制的核心公式：Q × Kᵀ 计算相关性，Softmax 将其转换为概率，V 提供内容，构成了现代AI的基础。

0 人收藏 0 人点赞

#transformer

@IlirAliu_: 忘掉激光雷达吧。仅需一个摄像头。实时运行且开源：一个流式3D模型，实时重建场景…

X AI KOLs Timeline ↗ · 2天前缓存

LingBot-Map 是一个开源、实时流式3D重建模型，使用单个摄像头，通过前馈几何上下文转换器以约20 FPS运行，性能优于流式和离线方法。

0 人收藏 0 人点赞

#transformer

@snowboat84: 你有没有发现，AI里模型的诞生其实相当随意？拿语言模型举例子：先是RNN，再到LSTM，某天突然说Transformer效果好就全换上，后来又拆成Encoder和Decoder，一会儿说BERT一桶浆糊，一会儿又说GPT可以有涌现能力，S…

X AI KOLs Timeline ↗ · 2天前缓存

文章讨论了AI模型诞生的随意性，提出从物理学模型中获得灵感并建立备选模型资料库，将选模型过程工程化的想法。

0 人收藏 0 人点赞

#transformer

想分享一个小成就。过去一个月我一直在白板和笔记本上涂涂画画，试图理解…

X AI KOLs Timeline ↗ · 3天前缓存

一位开发者用TypeScript从头构建了一个Transformer模型，包括自定义的自动求导引擎，并将其作为开源教育工具发布在GitHub上。

0 人收藏 0 人点赞

#transformer

@ZhihuFrontier: 半年前，一位知乎答主预测下一个Transformer将吸收循环、递归状态、稀疏路由……

X AI KOLs Timeline ↗ · 3天前缓存

一位知乎答主半年前的预测——下一个Transformer将吸收循环、递归状态、稀疏路由和潜在推理——随着Loop Engineering的推进，正变得越来越有现实意义。本文探讨了未来的Transformer架构如何演变为混合模型：将线性复杂度的层用于背景上下文，注意力机制用于精确推理，再加上更细粒度的稀疏性和原生的System 2推理。

0 人收藏 0 人点赞

#transformer