标签
本文表明,精心的预处理——尤其是上下文长度选择、归一化和正则化——可以使简单的线性模型(如 Ridge 回归)在时间序列预测基准测试中与大型 Transformer、MLP 和 CNN 模型相竞争或更优。
本文系统研究了Twitter数据情感分析预处理技术的最佳顺序,发现分词影响最大,拼写纠正影响最小,最佳顺序为:分词、清洗、词干提取、停用词去除。
作者分享了在 Hermes 下运行多个持久 AI 代理配置导致 API 成本高昂的经历,通过实施每个配置的分层模型策略、预处理输入以及使用 API 网关进行成本可视化,将每日成本从 14-18 美元降低到 7-10 美元。
本文提出三元后缀分词(TST)方案,一种确定性分词方案,将数字划分为三位组,并附加显式的数量级标记,以改进大语言模型的数值推理能力。该方法通过在标记级别提供透明的数量级关系,解决了标准分词器中数字分割不一致的问题,并提供两种可扩展词汇量的实现变体。