empirical-evaluation

#empirical-evaluation

Apple~Silicon 平台上的波兰语模型跨模型族系推测解码：基于扩展 UAG 的 MLX-LM 对 Bielik~11B 的经验评估

arXiv cs.CL ↗ · 2026-04-21

本文首次系统评估了 Apple~Silicon 上波兰语大语言模型的跨模型族系推测解码技术，通过在 MLX-LM 中扩展 UAG 实现跨分词器解码。研究发现，上下文感知的词元翻译能够提升接受率，但统一内存的带宽限制阻碍了理论加速比的摊销，在结构化文本场景下最佳吞吐量增益达 1.7 倍。

0 人收藏 0 人点赞

#empirical-evaluation

arXiv cs.CL ↗ · 2026-04-20 缓存

本论文对大型语言模型在思维链推理步骤中处理损坏情况的能力进行了全面的实证评估,在数学推理任务上针对13个模型和5种扰动类型(数学错误、单位转换、盲从、跳过步骤、额外步骤)进行了测试。研究结果揭示了异质性的漏洞模式,对在多阶段推理管道中部署LLM具有重要意义。

0 人收藏 0 人点赞