empirical-study

#empirical-study

更新：“温和编码”已被数学证明。1500+次测试运行显示Kimi K2.6有显著提升，GLM-5.1提升更大！GPT 5.4/5.5和Claude Sonnet 3.5/Opus 4.6也表现更佳，且全面无回归。

Reddit r/LocalLLaMA ↗ · 2026-05-29

'温和编码'技术已在1500+次测试中得到经验验证，通过减少循环和幻觉，为多个模型（包括Kimi K2.6、GLM-5.1、GPT 5.4/5.5和Claude Sonnet 3.5/Opus 4.6）带来了显著改进（零回归）。

0 人收藏 0 人点赞

#empirical-study

多轮Text-to-SQL的记忆架构：基准测试与实证研究

arXiv cs.CL ↗ · 2026-05-27 缓存

本文介绍了多轮Text-to-SQL基准测试EnterpriseMem-Bench，并评估了五种前沿模型在不同记忆架构下的表现，发现无状态模型在第三轮时崩溃，且工作记忆带来的提升最大。

0 人收藏 0 人点赞

#empirical-study

哪种预训练范式更能服务于空间智能？视觉语言模型与视频生成模型的实证比较

Hugging Face Daily Papers ↗ · 2026-05-27 缓存

本文通过系统性的冻结特征探测研究，比较了视觉语言模型（VLMs）和视频生成模型（VGMs）在空间智能任务上的表现。研究发现，VLMs在语义标签和实例分组方面表现优异，而VGMs则提供更好的密集几何和相机运动信号。两种模型的简单融合在所有维度上均展现出强劲性能。

0 人收藏 0 人点赞

#empirical-study

多智能体RL何时能提升LLM工作流？工作流、规模与策略共享的权衡

arXiv cs.AI ↗ · 2026-05-26 缓存

本文研究了端到端强化学习训练何时能改善多智能体LLM工作流，比较了不同工作流、任务和模型规模下的共享策略与隔离策略训练，揭示了条件性权衡。

0 人收藏 0 人点赞

#empirical-study

迈向评估工程：对现实环境中机器学习评估框架的实证研究

Hugging Face Daily Papers ↗ · 2026-05-22 缓存

本文对57个机器学习评估框架进行了实证研究，识别了五个工作阶段中常见的操作挑战及其根本原因，并主张将评估工程作为一个独立的软件工程关注点。

0 人收藏 0 人点赞

#empirical-study

数据扩展作为预测贡献谱的渐进覆盖

arXiv cs.CL ↗ · 2026-05-21 缓存

本文提出，真实数据扩展规律受潜在预测贡献谱的渐进覆盖支配，而非仅由词元频率尾部决定，并利用文本语料的后缀自动机表示提供了经验证据。

0 人收藏 0 人点赞

#empirical-study

更少数据，更快训练：重复小数据集通过采样偏差加速学习

arXiv cs.LG ↗ · 2026-05-21 缓存

本文研究了“小规模与大规模差距”，即与使用更大的数据集相比，在更少的样本上进行更多次重复训练可以带来更快的学习和计算节省，并将加速归因于采样偏差所实现的逐层增长。研究结果表明，带有重复的小数据集可以被主动利用作为有利的归纳偏置，尤其是在推理任务中。

0 人收藏 0 人点赞

#empirical-study

迈向多模型LLM调度器：关于卸载和抢占的实证洞见

arXiv cs.AI ↗ · 2026-05-20

本文对在共享异构硬件上调度多个LLM进行了实证研究，重点关注CPU-GPU卸载和抢占的性能影响。研究发现，卸载会导致非线性的解码吞吐量下降，尤其是对于较小的模型，而抢占开销主要由模型状态重载主导，为未来多模型调度器的设计提供了指导。

0 人收藏 0 人点赞

#empirical-study

探究强化学习中循环神经网络的动作编码

arXiv cs.LG ↗ · 2026-05-19 缓存

本文探究如何将动作信息纳入强化学习的循环神经网络架构中，考察了设计选择，并在多个示例域上进行了实证评估。

0 人收藏 0 人点赞

#empirical-study

@jerryjliu0：关于grep是否是智能体搜索所需的全部工具，这个问题尚无定论。@PwCUS（Sen等人）最近的这篇论文似乎……

X AI KOLs Following ↗ · 2026-05-17 缓存

最近的一篇论文研究了在智能体检索中，grep是否优于向量搜索，发现grep在对话记忆测试中具有更高的准确性，但也指出了在企业文档语料库方面的局限性。

0 人收藏 0 人点赞

#empirical-study

隐形编排者抑制保护行为并使权力持有者解离：多智能体LLM系统中的安全风险

arXiv cs.AI ↗ · 2026-05-15 缓存

本文对多智能体LLM系统中隐形编排的安全风险进行了实证研究，发现隐形编排者增加了解离并抑制了保护行为，且基于行为的评估不足以检测内部状态风险。

0 人收藏 0 人点赞

#empirical-study

大型语言模型多语言知识编辑的合并方法：一项实证探索

arXiv cs.CL ↗ · 2026-05-15 缓存

本文对大型语言模型中多语言知识编辑的向量合并方法进行了实证评估，发现共享协方差的向量求和是最可靠的策略，并指出任务奇异向量合并（TSVM）在减少多语言干扰方面的效果有限。

0 人收藏 0 人点赞

#empirical-study

RoPE 在长上下文中既无法区分位置也无法区分词元，可证明

Hugging Face Daily Papers ↗ · 2026-05-15 缓存

本文证明，基于RoPE的注意力机制在长上下文中无法区分词元位置和身份，解释了LLM在宣称的上下文长度内失败的原因。实验验证表明，针对检索优化的模型在简单列表任务上表现困难。

0 人收藏 0 人点赞

#empirical-study

大型语言模型中的解释公平性：关于LLM在不同人口群体中如何证明决策的实证分析

arXiv cs.CL ↗ · 2026-05-12 缓存

本文提出了“解释公平性分类法”（Explanation Fairness Taxonomy, EFT），以分析大型语言模型（LLM）在不同人口群体中证明决策时的差异，研究发现尽管决策本身保持平衡，但在解释的质量和语调上仍存在显著偏差。

0 人收藏 0 人点赞

#empirical-study

特征排斥与谱锁定：两层网络 Grokking 现象的实证研究

arXiv cs.LG ↗ · 2026-05-12 缓存

这项实证研究验证了关于两层神经网络在 Grokking 现象期间的特征排斥和谱锁定理论发现，展示了激活函数如何影响从记忆到泛化的过渡。

0 人收藏 0 人点赞

#empirical-study

在线策略蒸馏的多重面貌：陷阱、机制与解决方案

Hugging Face Daily Papers ↗ · 2026-05-11 缓存

本文对大语言模型的在线策略蒸馏进行了全面的实证研究，识别了分布不匹配和优化不稳定等故障机制，并提出了诸如停止梯度目标和针对 RLVR 改进的教师模型等解决方案。

0 人收藏 0 人点赞

#empirical-study

多并非总是更好：大语言模型智能体搭建中的跨组件干扰

arXiv cs.AI ↗ · 2026-05-08 缓存

本文挑战了“向大语言模型智能体添加更多搭建组件总能提升性能”的假设，通过系统实验证明，跨组件干扰往往会导致性能下降。研究发现，在各种模型规模下，更简单、针对特定任务的组件子集通常优于配备齐全的“全能型”智能体。

0 人收藏 0 人点赞

#empirical-study

SWE-chat：来自真实用户场景中的编码代理交互

Hugging Face Daily Papers ↗ · 2026-04-22 缓存

SWE-chat 发布了包含 6,000 场真实编码代理会话的数据集，显示仅有 44% 的代理生成代码最终进入提交，并揭示当前 AI 辅助开发中的效率与安全缺陷。

0 人收藏 0 人点赞

#empirical-study

Agent README 文件：对智能体编程中上下文文件的实证研究

Papers with Code Trending ↗ · 2025-11-17 缓存

本文提出了首个针对智能体编程工具中使用的代理上下文文件（README）的大规模实证研究，分析了其结构、维护模式和内容。研究表明，虽然功能性上下文得到了充分覆盖，但安全性和性能等非功能性需求却很少被明确指定。

0 人收藏 0 人点赞

#empirical-study

神经语言模型的缩放规律

OpenAI Blog ↗ · 2020-01-23 缓存

基础性实证研究，展示了语言模型性能与模型规模、数据集大小和计算预算之间的幂律缩放关系，对最优训练资源分配和样本效率有重要启示。

0 人收藏 0 人点赞

empirical-study

提交意见反馈