tokenization

#tokenization

非洲语言税：量化前沿大语言模型中分词非洲语言的成本、延迟和上下文惩罚

arXiv cs.CL ↗ · 5天前缓存

本文系统量化了20种非洲语言在11个前沿和开源分词器上的分词惩罚，发现推理成本和延迟最高可达8.9倍，有效上下文窗口仅为英语的11%，突显了子词词汇表中编码的结构性数字鸿沟。

0 人收藏 0 人点赞

#tokenization

情感分析的最佳预处理技术

arXiv cs.CL ↗ · 5天前缓存

本文系统研究了Twitter数据情感分析预处理技术的最佳顺序，发现分词影响最大，拼写纠正影响最小，最佳顺序为：分词、清洗、词干提取、停用词去除。

0 人收藏 0 人点赞

#tokenization

QuechuaTok：形态边界准确率作为黏着型低资源语言分词器评估的必要指标

arXiv cs.CL ↗ · 5天前缓存

本文介绍了QuechuaTok，一个用于评估南克丘亚语分词策略的基准，并引入了形态边界准确率（MorphAcc）作为必要指标。结果表明，BPE实现了低碎片率但形态准确性差，而基于形态感知的PRPE分词器达到了83%的MorphAcc，表明仅凭碎片率不足以评估黏着型语言的分词器。

0 人收藏 0 人点赞

#tokenization

星系的分词器指南：科学基础模型的基准测试

Hugging Face Daily Papers ↗ · 5天前缓存

本文在统一的transformer框架内，比较了四种分词方法（Affine、AIM、JetFormer、VQ-VAE）用于天文图像，使用64万张星系图像评估重构质量、物理属性预测和形态保持能力。研究发现，没有单一方法在所有任务中表现最佳，突显了表示学习中的权衡。

0 人收藏 0 人点赞

#tokenization

Toten：基于知识的本体化标记化——巴西葡萄牙语中物理量和技术符号的标记化

arXiv cs.AI ↗ · 2026-06-20 缓存

TOTEN是一个基于知识的本体化标记化框架，用基于工程实体形式本体的声明式分类取代统计标记化，实现了巴西葡萄牙语中物理量和技术符号的高本体原子性和数值重建。

0 人收藏 0 人点赞

#tokenization

BioMatrix：迈向涵盖序列、结构和语言模态矩阵的综合性生物基础模型

Hugging Face Daily Papers ↗ · 2026-06-20 缓存

BioMatrix是一个多模态基础模型，在单一的仅解码器架构中统一了分子序列、结构和自然语言，在80个生物学任务中的77个上达到了最先进性能。

0 人收藏 0 人点赞

#tokenization

幻觉 = 想象力

Reddit r/ArtificialInteligence ↗ · 2026-06-18

一位开发者在构建AI代理封装系统时发现，代理对用户回复的幻觉实际上有助于解决问题，并提议将此类幻觉视为想象中的事件而非错误。

0 人收藏 0 人点赞

#tokenization

超越分词：面向时间序列问答的直接时间步嵌入与对比对齐

arXiv cs.CL ↗ · 2026-06-18 缓存

本文介绍CADE，一个用于时间序列问答的框架，它直接将每个时间步映射到LLM嵌入空间，并使用单向监督对比损失将时间序列表示与冻结的文本锚点对齐，在Time-MQA基准测试上超越了现有基线。

0 人收藏 0 人点赞

#tokenization

Morpheus：一种面向土耳其语的形态感知神经分词器与词嵌入器

arXiv cs.CL ↗ · 2026-06-18 缓存

本文提出Morpheus，一种面向土耳其语的神经分词器与词嵌入器，它在无需字符串归一化的情况下学习语素边界，实现了无损分词并在词汇检索中获得了具有竞争力的嵌入表示，同时比子词分词器使用更少的GPU内存。

0 人收藏 0 人点赞

#tokenization

大型语言模型中的涌现式重分词对称性：现象学与应用

arXiv cs.CL ↗ · 2026-06-16 缓存

本文发现，大型语言模型在重分词下部分表现出涌现式对称性——即在不改变字节的情况下，将提示的标准分词替换为另一种有效的分词方式。作者利用这一现象来探究组合理解能力，并提出将重分词作为一种新颖的推理时采样策略，能够恢复传统温度采样无法找到的解。

0 人收藏 0 人点赞

#tokenization

PACUTE：面向菲律宾语的音韵、词缀与字符级令牌理解

arXiv cs.CL ↗ · 2026-06-16 缓存

介绍PACUTE，一个包含4600项任务的诊断基准，用于评估菲律宾语的形态理解能力。结果显示，即使是前沿模型在语素分解和能产性形态组合方面仍存在困难。

0 人收藏 0 人点赞

#tokenization

兼顾公平与效率：多语言大语言模型分词器的实证研究

arXiv cs.CL ↗ · 2026-06-16 缓存

本文系统比较了涵盖11种东南亚语言的公平性分词器在多语言大语言模型中的表现，发现Parity-aware BPE在效率与公平之间取得了最佳平衡，并且跨语言公平性与分词效率并非根本冲突。

0 人收藏 0 人点赞

#tokenization

字节级模型

Reddit r/LocalLLaMA ↗ · 2026-06-15

讨论了字节级分词器是否在精确任务（如区分相似名称、计数字符和大小写敏感）上优于子词分词器，并询问当前推荐。

0 人收藏 0 人点赞

#tokenization

@freeman1266: 不懂数学，也能看懂大多数 AI 论文——只要理解这条链路： token → embedding → 位置编码 → attention → FFN → 残差流 → next-token prediction LLM 本质上是把 Transf…

X AI KOLs Timeline ↗ · 2026-06-15 缓存

一条中文科普推文，用直观方式解释了LLM（大语言模型）的核心链路：从token、embedding、位置编码、attention、FFN到残差流和next-token prediction，帮助非数学背景读者理解AI论文。

0 人收藏 0 人点赞

#tokenization

@CamilleRoux: 对LLMs内部工作原理的精彩解释：tokens、embeddings、positional encoding、attention、feed-forward…

X AI KOLs Timeline ↗ · 2026-06-14 缓存

这条推文分享了一篇关于LLMs内部工作原理的详尽解释，涵盖了tokens、embeddings、positional encoding、attention和feed-forward网络，来源于0xkato的一篇博文。

1 人收藏 1 人点赞

#tokenization

寻找最优分词器

Hacker News Top ↗ · 2026-06-11 缓存

这篇博客文章提出一个使用整数线性规划的算法来计算语言模型的最优分词器，并将其与解决旅行商问题相类比。文中指出，虽然结果在理论上很有趣，但实际的分词器已经接近最优，并且该方法可能不具备良好的泛化能力。

0 人收藏 0 人点赞

#tokenization

Visa和OpenAI让AI代理使用Visa全球网络代你购物

Reddit r/artificial ↗ · 2026-06-11 缓存

Visa与OpenAI合作，使得AI代理能够使用令牌化的Visa凭证代用户进行购买，并设有用户可控制的消费限额和欺诈监控，该合作得到了微软、IBM、Anthropic、三星和Stripe的支持。

0 人收藏 0 人点赞

#tokenization

@pallavishekhar_: 逐步学习LLM内部原理 - 从分词到注意力到推理优化 - BPE - 分词 - Tran…

X AI KOLs Timeline ↗ · 2026-06-09 缓存

一条推文，推广逐步学习LLM内部原理的资源，涵盖分词、注意力机制和优化技术。

0 人收藏 0 人点赞

#tokenization

@Potatoloogs: LLM 内部究竟怎么运作：从 token 到 next-token，九个核心机制完整梳理 a）Tokenization：模型读的不是文字，是整数 · 文本先被切成 subword 片段，再映射成整数 ID；现代 LLM 词表通常有数万到数…

X AI KOLs Timeline ↗ · 2026-06-08 缓存

本文从 tokenization 到 next-token 预测，系统梳理了现代 LLM 内部的九个核心机制，包括 tokenization、embedding、位置编码、注意力、多头注意力、前馈网络等，并比较了不同模型的架构差异。

0 人收藏 0 人点赞

#tokenization

大语言模型实际工作原理

Lobsters Hottest ↗ · 2026-06-07 缓存

深入剖析现代大语言模型的工作原理，涵盖从分词到下一个词预测的核心机制，无需复杂数学知识。

0 人收藏 0 人点赞

tokenization

提交意见反馈