标签
本文系统量化了20种非洲语言在11个前沿和开源分词器上的分词惩罚,发现推理成本和延迟最高可达8.9倍,有效上下文窗口仅为英语的11%,突显了子词词汇表中编码的结构性数字鸿沟。
本文系统研究了Twitter数据情感分析预处理技术的最佳顺序,发现分词影响最大,拼写纠正影响最小,最佳顺序为:分词、清洗、词干提取、停用词去除。
本文介绍了QuechuaTok,一个用于评估南克丘亚语分词策略的基准,并引入了形态边界准确率(MorphAcc)作为必要指标。结果表明,BPE实现了低碎片率但形态准确性差,而基于形态感知的PRPE分词器达到了83%的MorphAcc,表明仅凭碎片率不足以评估黏着型语言的分词器。
TOTEN是一个基于知识的本体化标记化框架,用基于工程实体形式本体的声明式分类取代统计标记化,实现了巴西葡萄牙语中物理量和技术符号的高本体原子性和数值重建。
BioMatrix是一个多模态基础模型,在单一的仅解码器架构中统一了分子序列、结构和自然语言,在80个生物学任务中的77个上达到了最先进性能。
本文介绍CADE,一个用于时间序列问答的框架,它直接将每个时间步映射到LLM嵌入空间,并使用单向监督对比损失将时间序列表示与冻结的文本锚点对齐,在Time-MQA基准测试上超越了现有基线。
本文提出Morpheus,一种面向土耳其语的神经分词器与词嵌入器,它在无需字符串归一化的情况下学习语素边界,实现了无损分词并在词汇检索中获得了具有竞争力的嵌入表示,同时比子词分词器使用更少的GPU内存。
本文发现,大型语言模型在重分词下部分表现出涌现式对称性——即在不改变字节的情况下,将提示的标准分词替换为另一种有效的分词方式。作者利用这一现象来探究组合理解能力,并提出将重分词作为一种新颖的推理时采样策略,能够恢复传统温度采样无法找到的解。
介绍PACUTE,一个包含4600项任务的诊断基准,用于评估菲律宾语的形态理解能力。结果显示,即使是前沿模型在语素分解和能产性形态组合方面仍存在困难。
本文系统比较了涵盖11种东南亚语言的公平性分词器在多语言大语言模型中的表现,发现Parity-aware BPE在效率与公平之间取得了最佳平衡,并且跨语言公平性与分词效率并非根本冲突。
一条中文科普推文,用直观方式解释了LLM(大语言模型)的核心链路:从token、embedding、位置编码、attention、FFN到残差流和next-token prediction,帮助非数学背景读者理解AI论文。
这条推文分享了一篇关于LLMs内部工作原理的详尽解释,涵盖了tokens、embeddings、positional encoding、attention和feed-forward网络,来源于0xkato的一篇博文。
这篇博客文章提出一个使用整数线性规划的算法来计算语言模型的最优分词器,并将其与解决旅行商问题相类比。文中指出,虽然结果在理论上很有趣,但实际的分词器已经接近最优,并且该方法可能不具备良好的泛化能力。
Visa与OpenAI合作,使得AI代理能够使用令牌化的Visa凭证代用户进行购买,并设有用户可控制的消费限额和欺诈监控,该合作得到了微软、IBM、Anthropic、三星和Stripe的支持。
一条推文,推广逐步学习LLM内部原理的资源,涵盖分词、注意力机制和优化技术。
本文从 tokenization 到 next-token 预测,系统梳理了现代 LLM 内部的九个核心机制,包括 tokenization、embedding、位置编码、注意力、多头注意力、前馈网络等,并比较了不同模型的架构差异。
介绍了SelfBootTok,一种自引导标记化方法,它将全局和局部信息分离,使生成器计算量减少约40%,仅用64个标记即实现了1.56的gFID新最先进水平。