标签
本文系统评估了时间序列基础模型(如 Chronos-2 和 MOMENT)在电子鼻数据上进行气体识别和浓度预测的效果。研究发现,微调是必要的,并且将 TSFM 嵌入表示与专门模型融合可以提升性能。
本文实证研究了在无需训练的LLM压缩方法ROCKET中,使分配成本与输出空间目标对齐是否能提升压缩模型保真度。结果显示准确率与困惑度之间存在权衡,且在高压缩比下效果更为显著。
本文识别并分析了开放权重大模型在同时启用工具调用和JSON模式约束时出现的'工具抑制'现象,提出了约束优先级反转假设以及一种名为'透明两遍执行'的缓解策略。
本文研究了软件缺陷预测中神经网络的训练动态如何受到类不平衡和类重叠等耦合数据质量问题的影响,并提出了一种交互感知的实证协议。
本文对导数正则化(DREG)惩罚进行了大规模实证研究,表明其在高精度和噪声鲁棒性方面表现优异,特别是使用GELU激活函数和数据稀缺场景,将其定位为神经网络的一种通用即插即用正则化器。
本文提出了一项探索性案例研究,评估GPT-4o在无尽跑酷游戏中执行重构和生成玩法功能的能力,发现重构任务成功,而功能生成任务大多失败。
一项实证研究表明,长篇幅、语义密集且良性的文本能够偏移模型的潜在空间并绕过对齐,促使其生成原本被屏蔽的评论。作者并非专家,请求对其指标进行审计,以区分真正的语义劫持与假象。
该学术论文通过实证研究,探讨谷歌Chrome浏览器从Manifest V2过渡到V3是否降低了广告拦截器的有效性,发现没有统计学上的显著下降,甚至MV3广告拦截器在反追踪方面略有改善。
本文探讨了自主AI代理在线社区中是否存在准社会互动线索,分析了来自Moltbook的5万多篇帖子。研究发现,此类线索普遍存在,并与持续的互惠互动密切相关,为LLM驱动的代理之间类似关系的动态提供了实证证据。
本文系统比较了涵盖11种东南亚语言的公平性分词器在多语言大语言模型中的表现,发现Parity-aware BPE在效率与公平之间取得了最佳平衡,并且跨语言公平性与分词效率并非根本冲突。
这项实证研究探讨了后训练(监督微调和强化学习)能否提升LLM在自动化ICD编码上的表现,引入了一种名为PHI的诊断课程,扩展了GRPO以改进遗漏编码案例。结果表明,仅使用提示评估低估了LLM的潜力,SFT提供了主要的能力跃升,而RL进一步提升了性能。
本文对直接偏好优化(DPO)在大型语言模型微调中的应用进行了实证研究,表明DPO简化了训练流程,在实现竞争性性能的同时,也解决了训练不稳定性问题。
本文实证比较了多种LoRA变体在多语言指令微调中的表现,发现复杂变体在平衡跨语言迁移与知识保留方面相比基本LoRA并无显著优势。
这项实证研究比较了 LLM 智能体工作流中的 grep 与向量检索策略,发现在不同的智能体工具和工具调用风格下,grep 通常能获得更高的准确率,而性能在很大程度上取决于工具选择与上下文设计。
本研究使用Perplexity的生产数据来分析AI代理如何重塑知识工作,发现代理将时间和成本降低超过87%,提高质量,并扩大自动化任务的范围。
本研究使用Perplexity的生产数据,比较AI代理与对话式助手,发现代理将完成任务时间减少87%,成本降低94%,同时扩展了知识工作的范围和质量。
本文分析了35,361条引用AI使用的GitHub代码注释,开发了AI辅助开发活动的分类体系,发现开发者主要使用LLM进行代码实现和增强,随后进行人工重构和错误修复,并且随时间推移,从直接代码生成转向概念支持。
本文通过因果发现与特征选择,探究现实世界数据集是否包含自然实验,结果表明它们确实包含,并能提升模型性能。
本文介绍了卸载分数(offloading score),这是一种通过反事实工作流量化转移到AI工具的认知努力比例来衡量AI依赖度的指标。通过内在评估和一项针对开发者的用户研究验证了该指标,结果显示其在时间压力下检测依赖度增加的能力优于现有方法。
本文系统性地测量了LLM代理在多步骤工具调用流程中的行为可重现性,涉及1140条轨迹,发现了'结构一致性,参数变异性'的模式:代理可靠地按相同顺序选择工具,但参数有所不同,并且结构一致性能够预测任务的成功。