tokenization

标签

#tokenization

自适应分块在时间序列预测中比看起来更难实现

arXiv cs.LG ↗ · 2026-06-04 缓存

本文从理论和实验两个角度对时间序列 Transformer 的自适应分块方法进行了深入研究，推导出内容自适应分词应优于调优后的均匀分块的条件。在标准基准上的受控实验表明，经过良好调优的均匀基线与动态分块方法具有相当的竞争力，这对自适应方法所假设的优势提出了质疑。

0 人收藏 0 人点赞

#tokenization

LDARNet：用于基因组建模的具有可学习分词的DNA自适应表示网络

arXiv cs.CL ↗ · 2026-06-04 缓存

LDARNet 是一个拥有1.2亿参数的层次化基因组基础模型，引入了可学习的自适应分词机制（灵感来源于 H-Net 的动态分块），用于DNA序列的掩码语言建模。该模型在5项组蛋白修饰任务上取得了最先进的结果，并在多项基因组基准测试中超越了参数量多达其20倍的模型。其学习到的分词边界与启动子motif和剪接位点等生物学特征高度吻合。

0 人收藏 0 人点赞

#tokenization

@MaximeRivest: 开源LLM中的工具调用在不同模型间差异巨大。我刚刚搭建了：http://chattemplatepl…

X AI KOLs Following ↗ · 2026-06-03 缓存

一个新的在线工具Chat Template Playground，让用户可视化查看不同开源LLM渲染其聊天模板的方式，突出显示了提示和分词上的差异。

0 人收藏 0 人点赞

#tokenization

MeshWeaver: 稀疏体素引导的表面编织用于自回归网格生成

Hugging Face Daily Papers ↗ · 2026-06-03 缓存

MeshWeaver 提出了一种自回归网格生成框架，它使用多级稀疏体素编码器直接预测顶点，为高多边形网格实现了最先进的压缩率和几何保真度。

0 人收藏 0 人点赞

#tokenization

增量BPE分词

arXiv cs.CL ↗ · 2026-06-01 缓存

本文介绍了一种增量式字节对编码（BPE）分词算法，该算法处理每个字节的时间复杂度为 O(log^2 t)，支持流式场景下的高效部分分词，并相比现有实现实现了加速。

0 人收藏 0 人点赞

#tokenization

Agentic RL: Token-In, Token-Out Done Right (16 minute read)

TLDR AI ↗ · 2026-06-01 缓存

This article explains the 'Token-In, Token-Out' (TITO) invariant in reinforcement learning for LLMs, highlighting a common error when training multi-turn agents with tool calls. It presents two solutions: using per-model renderers or designing training to avoid re-encoding decoded tokens, emphasizing prefix-preserving chat templates.

0 人收藏 0 人点赞

#tokenization

连续性与序数性的重要性：约束时间序列令牌以利用大语言模型进行有效时间序列分析

arXiv cs.LG ↗ · 2026-05-29 缓存

本文提出COM方法，该方法对时间序列令牌嵌入施加连续性和序数性约束，以提升基于令牌的时间序列大语言模型的性能。

0 人收藏 0 人点赞

#tokenization

@royvanrijn: 对于好奇的开发者，我构建了《大语言模型的解剖结构》，这是一个交互式解释器，展示了文本如何变成令牌、向量、注意力……

X AI KOLs Timeline ↗ · 2026-05-28 缓存

由 Roy van Rijn 构建的交互式可视化指南，解释了大语言模型的工作原理，从令牌化到注意力机制、Transformer 模块以及文本生成。

0 人收藏 0 人点赞

#tokenization

语言模型中跨语言泛化的体外研究

arXiv cs.CL ↗ · 2026-05-27 缓存

本文引入了一个使用两种程序生成语言的体外框架，用于研究语言模型中的跨语言泛化，发现分词对可复用子结构的保留能力对于跨语言能力迁移比词汇相似性或数据平衡更为关键。

0 人收藏 0 人点赞

#tokenization

BrickAnything：基于几何条件的可构建砖块生成与结构感知标记化

arXiv cs.AI ↗ · 2026-05-27 缓存

BrickAnything是一种自回归框架，通过点云和结构感知树标记化，从多种3D表示中生成物理可构建的砖块结构，确保几何保真度和结构稳定性。

0 人收藏 0 人点赞

#tokenization

机器是在思考还是在分词？

Reddit r/artificial ↗ · 2026-05-26

本文介绍了SAPS（合成算法预测系统）框架，认为现代AI系统不是在思考，而是在分词并计算统计模式，并阐明了人工系统与合成系统之间的关键区别。

0 人收藏 0 人点赞

#tokenization

@gordic_aleksa: 新深度博文时刻：Inside the Transformer: The Life of a Token 对现代密集Transformer的深入探讨，我…

X AI KOLs Timeline ↗ · 2026-05-26 缓存

一篇深入探讨现代密集Transformer内部工作原理的博文，涵盖YaRN（位置信息）、混合注意力（实现160k上下文长度）、soft capping、QK归一化，以及Transformer数学（包括FLOPs/Token公式和集群规模估算）。

0 人收藏 0 人点赞

#tokenization

迷失于翻译？探究从拉丁语到奥克语语法性别的演变

Hugging Face Daily Papers ↗ · 2026-05-26 缓存

开发了一个深度学习框架，用于分析从拉丁语到罗曼语族的语法性别演变，重点是利用词汇和上下文分析处理低资源历史场景。

0 人收藏 0 人点赞

#tokenization

LLaVA-OneVision-2：迈向下一代感知智能

Hugging Face Daily Papers ↗ · 2026-05-25 缓存

LLaVA-OneVision-2 引入了编解码流分词和窗口注意力机制以实现高效的视频理解，在包括视频、空间和跟踪任务在内的多个多模态基准测试中取得了最先进的性能。

0 人收藏 0 人点赞

#tokenization

@shabnam_774: https://x.com/shabnam_774/status/2058517919760355729

X AI KOLs Timeline ↗ · 2026-05-24 缓存

本文提供了关于现代大型语言模型（如ChatGPT和Claude）从零开始构建的全面逐步解析，涵盖了数据收集、分词、Transformer架构、训练、对齐和部署。

0 人收藏 0 人点赞

#tokenization

@Tabbu_ai: https://x.com/Tabbu_ai/status/2058145123444347339

X AI KOLs Timeline ↗ · 2026-05-23 缓存

一篇教育性推文串，解释了理解和从头构建LLM架构的11个关键课程，涵盖token、嵌入、注意力、位置编码、数据质量和常见误解。

0 人收藏 0 人点赞

#tokenization

AI代理让代币化平台比我预想的更易用

Reddit r/AI_Agents ↗ · 2026-05-20

一位开发者分享了AI代理如何通过人类与系统的智能编排（而非完全自主）来改进代币化平台。

0 人收藏 0 人点赞

#tokenization

利用更优词元加速学习：面向专业文本摘要的参数高效词表适配

arXiv cs.CL ↗ · 2026-05-19 缓存

本文提出了一种针对专业领域LLM文本摘要的参数高效词表适配方法，通过扩充预训练分词器中的领域专用词元并选择性替换训练不足的词元，将训练时间减少35-55%，参数数量减少高达37%。

0 人收藏 0 人点赞

#tokenization

@nemild: Y Combinator 将于周四在纽约市举办金融科技欢乐时光活动。在考虑关于稳定币、代币化…的初创公司吗？

X AI KOLs Timeline ↗ · 2026-05-18 缓存

Y Combinator 将于周四在纽约市举办金融科技欢乐时光，邀请专注于稳定币、代币化、金融人工智能、代理商务和预测市场的初创公司。

0 人收藏 0 人点赞

#tokenization

Dywave：面向异构物联网传感信号的事件对齐动态分词框架

arXiv cs.LG ↗ · 2026-05-15 缓存

Dywave 是一个面向物联网传感信号的动态分词框架，利用基于小波的层次分解将分词与语义事件对齐，在五个真实数据集上实现了高达12%的准确率提升和75%的输入分词长度缩减。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈