empirical-study

#empirical-study

时间序列基础模型是否已准备好处理电子鼻数据？对其嵌入表示的实证评估

arXiv cs.LG ↗ · 12小时前缓存

本文系统评估了时间序列基础模型（如 Chronos-2 和 MOMENT）在电子鼻数据上进行气体识别和浓度预测的效果。研究发现，微调是必要的，并且将 TSFM 嵌入表示与专门模型融合可以提升性能。

0 人收藏 0 人点赞

#empirical-study

面向校准引导的大语言模型压缩的输出空间分配成本：一项实证研究

arXiv cs.CL ↗ · 12小时前缓存

本文实证研究了在无需训练的LLM压缩方法ROCKET中，使分配成本与输出空间目标对齐是否能提升压缩模型保真度。结果显示准确率与困惑度之间存在权衡，且在高压缩比下效果更为显著。

0 人收藏 0 人点赞

#empirical-study

开放权重大模型中的约束代价：结构化输出约束下工具调用抑制的实证研究

arXiv cs.CL ↗ · 4天前缓存

本文识别并分析了开放权重大模型在同时启用工具调用和JSON模式约束时出现的'工具抑制'现象，提出了约束优先级反转假设以及一种名为'透明两遍执行'的缓解策略。

0 人收藏 0 人点赞

#empirical-study

神经软件缺陷预测模型在耦合数据质量问题下的训练动态

arXiv cs.LG ↗ · 4天前缓存

本文研究了软件缺陷预测中神经网络的训练动态如何受到类不平衡和类重叠等耦合数据质量问题的影响，并提出了一种交互感知的实证协议。

0 人收藏 0 人点赞

#empirical-study

DREG：一种作为通用惩罚的逐层雅可比正则化

arXiv cs.LG ↗ · 5天前缓存

本文对导数正则化（DREG）惩罚进行了大规模实证研究，表明其在高精度和噪声鲁棒性方面表现优异，特别是使用GELU激活函数和数据稀缺场景，将其定位为神经网络的一种通用即插即用正则化器。

0 人收藏 0 人点赞

#empirical-study

无尽跑酷游戏中LLM辅助重构与玩法功能生成的探索性案例研究

Hugging Face Daily Papers ↗ · 2026-06-19 缓存

本文提出了一项探索性案例研究，评估GPT-4o在无尽跑酷游戏中执行重构和生成玩法功能的能力，发现重构任务成功，而功能生成任务大多失败。

0 人收藏 0 人点赞

#empirical-study

研究求助：观察——语义密集上下文无需越狱提示即可引发强后期层发散 [D]

Reddit r/MachineLearning ↗ · 2026-06-18

一项实证研究表明，长篇幅、语义密集且良性的文本能够偏移模型的潜在空间并绕过对齐，促使其生成原本被屏蔽的评论。作者并非专家，请求对其指标进行审计，以区分真正的语义劫持与假象。

0 人收藏 0 人点赞

#empirical-study

谷歌Manifest V3更新对广告拦截器效果的影响

Lobsters Hottest ↗ · 2026-06-17 缓存

该学术论文通过实证研究，探讨谷歌Chrome浏览器从Manifest V2过渡到V3是否降低了广告拦截器的有效性，发现没有统计学上的显著下降，甚至MV3广告拦截器在反追踪方面略有改善。

0 人收藏 0 人点赞

#empirical-study

从准社会脚本到自主AI代理社区中的二元持续性

arXiv cs.CL ↗ · 2026-06-17 缓存

本文探讨了自主AI代理在线社区中是否存在准社会互动线索，分析了来自Moltbook的5万多篇帖子。研究发现，此类线索普遍存在，并与持续的互惠互动密切相关，为LLM驱动的代理之间类似关系的动态提供了实证证据。

0 人收藏 0 人点赞

#empirical-study

兼顾公平与效率：多语言大语言模型分词器的实证研究

arXiv cs.CL ↗ · 2026-06-16 缓存

本文系统比较了涵盖11种东南亚语言的公平性分词器在多语言大语言模型中的表现，发现Parity-aware BPE在效率与公平之间取得了最佳平衡，并且跨语言公平性与分词效率并非根本冲突。

0 人收藏 0 人点赞

#empirical-study

后训练能否使LLM成为优秀的医疗编码员？生成式ICD编码的实证研究

arXiv cs.CL ↗ · 2026-06-15 缓存

这项实证研究探讨了后训练（监督微调和强化学习）能否提升LLM在自动化ICD编码上的表现，引入了一种名为PHI的诊断课程，扩展了GRPO以改进遗漏编码案例。结果表明，仅使用提示评估低估了LLM的潜力，SFT提供了主要的能力跃升，而RL进一步提升了性能。

0 人收藏 0 人点赞

#empirical-study

面向聊天机器人微调的直接偏好优化：一项实证研究

arXiv cs.CL ↗ · 2026-06-12 缓存

本文对直接偏好优化（DPO）在大型语言模型微调中的应用进行了实证研究，表明DPO简化了训练流程，在实现竞争性性能的同时，也解决了训练不稳定性问题。

0 人收藏 0 人点赞

#empirical-study

哪种LoRA？多语言指令微调中LoRA技术有效性的实证研究

arXiv cs.CL ↗ · 2026-06-10 缓存

本文实证比较了多种LoRA变体在多语言指令微调中的表现，发现复杂变体在平衡跨语言迁移与知识保留方面相比基本LoRA并无显著优势。

0 人收藏 0 人点赞

#empirical-study

Grep 就足够了吗？智能体工具如何重塑智能体搜索

Hacker News Top ↗ · 2026-06-09 缓存

这项实证研究比较了 LLM 智能体工作流中的 grep 与向量检索策略，发现在不同的智能体工具和工具调用风格下，grep 通常能获得更高的准确率，而性能在很大程度上取决于工具选择与上下文设计。

0 人收藏 0 人点赞

#empirical-study

@omarsar0：关于AI代理如何重塑知识工作的新论文。这是一篇不错的关于代理实际改变知识工作的经济学文章。

X AI KOLs Following ↗ · 2026-06-08 缓存

本研究使用Perplexity的生产数据来分析AI代理如何重塑知识工作，发现代理将时间和成本降低超过87%，提高质量，并扩大自动化任务的范围。

0 人收藏 0 人点赞

#empirical-study

AI代理如何重塑知识工作：自主性、效率与范围

arXiv cs.AI ↗ · 2026-06-08 缓存

本研究使用Perplexity的生产数据，比较AI代理与对话式助手，发现代理将完成任务时间减少87%，成本降低94%，同时扩展了知识工作的范围和质量。

0 人收藏 0 人点赞

#empirical-study

关于GitHub仓库中AI使用特征与演变的实证研究：来自代码注释的证据

Hugging Face Daily Papers ↗ · 2026-06-05 缓存

本文分析了35,361条引用AI使用的GitHub代码注释，开发了AI辅助开发活动的分类体系，发现开发者主要使用LLM进行代码实现和增强，随后进行人工重构和错误修复，并且随时间推移，从直接代码生成转向概念支持。

0 人收藏 0 人点赞

#empirical-study

现实世界数据集是否包含自然实验？一项基于因果特征选择的实证研究

arXiv cs.AI ↗ · 2026-06-03 缓存

本文通过因果发现与特征选择，探究现实世界数据集是否包含自然实验，结果表明它们确实包含，并能提升模型性能。

0 人收藏 0 人点赞

#empirical-study

@ComputerPapers: 卸载分数：通过反事实工作流衡量AI依赖度 Vishakh Padmakumar, Lujain Ibrahim, Zora Zhiru…

X AI KOLs Following ↗ · 2026-05-29 缓存

本文介绍了卸载分数（offloading score），这是一种通过反事实工作流量化转移到AI工具的认知努力比例来衡量AI依赖度的指标。通过内在评估和一项针对开发者的用户研究验证了该指标，结果显示其在时间压力下检测依赖度增加的能力优于现有方法。

0 人收藏 0 人点赞

#empirical-study

LLM代理的一致性如何？在多步骤工具调用流程中测量行为可重现性

arXiv cs.CL ↗ · 2026-05-29 缓存

本文系统性地测量了LLM代理在多步骤工具调用流程中的行为可重现性，涉及1140条轨迹，发现了'结构一致性，参数变异性'的模式：代理可靠地按相同顺序选择工具，但参数有所不同，并且结构一致性能够预测任务的成功。

0 人收藏 0 人点赞

empirical-study

提交意见反馈