标签
本文从理论和实验两个角度对时间序列 Transformer 的自适应分块方法进行了深入研究,推导出内容自适应分词应优于调优后的均匀分块的条件。在标准基准上的受控实验表明,经过良好调优的均匀基线与动态分块方法具有相当的竞争力,这对自适应方法所假设的优势提出了质疑。
LDARNet 是一个拥有1.2亿参数的层次化基因组基础模型,引入了可学习的自适应分词机制(灵感来源于 H-Net 的动态分块),用于DNA序列的掩码语言建模。该模型在5项组蛋白修饰任务上取得了最先进的结果,并在多项基因组基准测试中超越了参数量多达其20倍的模型。其学习到的分词边界与启动子motif和剪接位点等生物学特征高度吻合。
一个新的在线工具Chat Template Playground,让用户可视化查看不同开源LLM渲染其聊天模板的方式,突出显示了提示和分词上的差异。
MeshWeaver 提出了一种自回归网格生成框架,它使用多级稀疏体素编码器直接预测顶点,为高多边形网格实现了最先进的压缩率和几何保真度。
本文介绍了一种增量式字节对编码(BPE)分词算法,该算法处理每个字节的时间复杂度为 O(log^2 t),支持流式场景下的高效部分分词,并相比现有实现实现了加速。
This article explains the 'Token-In, Token-Out' (TITO) invariant in reinforcement learning for LLMs, highlighting a common error when training multi-turn agents with tool calls. It presents two solutions: using per-model renderers or designing training to avoid re-encoding decoded tokens, emphasizing prefix-preserving chat templates.
本文提出COM方法,该方法对时间序列令牌嵌入施加连续性和序数性约束,以提升基于令牌的时间序列大语言模型的性能。
由 Roy van Rijn 构建的交互式可视化指南,解释了大语言模型的工作原理,从令牌化到注意力机制、Transformer 模块以及文本生成。
本文引入了一个使用两种程序生成语言的体外框架,用于研究语言模型中的跨语言泛化,发现分词对可复用子结构的保留能力对于跨语言能力迁移比词汇相似性或数据平衡更为关键。
BrickAnything是一种自回归框架,通过点云和结构感知树标记化,从多种3D表示中生成物理可构建的砖块结构,确保几何保真度和结构稳定性。
本文介绍了SAPS(合成算法预测系统)框架,认为现代AI系统不是在思考,而是在分词并计算统计模式,并阐明了人工系统与合成系统之间的关键区别。
一篇深入探讨现代密集Transformer内部工作原理的博文,涵盖YaRN(位置信息)、混合注意力(实现160k上下文长度)、soft capping、QK归一化,以及Transformer数学(包括FLOPs/Token公式和集群规模估算)。
开发了一个深度学习框架,用于分析从拉丁语到罗曼语族的语法性别演变,重点是利用词汇和上下文分析处理低资源历史场景。
LLaVA-OneVision-2 引入了编解码流分词和窗口注意力机制以实现高效的视频理解,在包括视频、空间和跟踪任务在内的多个多模态基准测试中取得了最先进的性能。
本文提供了关于现代大型语言模型(如ChatGPT和Claude)从零开始构建的全面逐步解析,涵盖了数据收集、分词、Transformer架构、训练、对齐和部署。
一篇教育性推文串,解释了理解和从头构建LLM架构的11个关键课程,涵盖token、嵌入、注意力、位置编码、数据质量和常见误解。
本文提出了一种针对专业领域LLM文本摘要的参数高效词表适配方法,通过扩充预训练分词器中的领域专用词元并选择性替换训练不足的词元,将训练时间减少35-55%,参数数量减少高达37%。
Y Combinator 将于周四在纽约市举办金融科技欢乐时光,邀请专注于稳定币、代币化、金融人工智能、代理商务和预测市场的初创公司。
Dywave 是一个面向物联网传感信号的动态分词框架,利用基于小波的层次分解将分词与语义事件对齐,在五个真实数据集上实现了高达12%的准确率提升和75%的输入分词长度缩减。