preprocessing

#preprocessing

线性模型在时间序列预测中能有多好？

Hugging Face Daily Papers ↗ · 6天前缓存

本文表明，精心的预处理——尤其是上下文长度选择、归一化和正则化——可以使简单的线性模型（如 Ridge 回归）在时间序列预测基准测试中与大型 Transformer、MLP 和 CNN 模型相竞争或更优。

0 人收藏 0 人点赞

#preprocessing

arXiv cs.CL ↗ · 6天前缓存

本文系统研究了Twitter数据情感分析预处理技术的最佳顺序，发现分词影响最大，拼写纠正影响最小，最佳顺序为：分词、清洗、词干提取、停用词去除。

0 人收藏 0 人点赞

#preprocessing

Reddit r/AI_Agents ↗ · 2026-05-19

作者分享了在 Hermes 下运行多个持久 AI 代理配置导致 API 成本高昂的经历，通过实施每个配置的分层模型策略、预处理输入以及使用 API 网关进行成本可视化，将每日成本从 14-18 美元降低到 7-10 美元。

0 人收藏 0 人点赞

#preprocessing

arXiv cs.CL ↗ · 2026-04-20 缓存

本文提出三元后缀分词（TST）方案，一种确定性分词方案，将数字划分为三位组，并附加显式的数量级标记，以改进大语言模型的数值推理能力。该方法通过在标记级别提供透明的数量级关系，解决了标准分词器中数字分割不一致的问题，并提供两种可扩展词汇量的实现变体。

0 人收藏 0 人点赞