标签
对rsync发布历史的一项分析检验了Claude辅助的提交是否引入了更多bug,使用每10次提交的bug数的排列检验。结果表明,与历史分布相比,Claude辅助的发布在bug数量上没有统计学上的显著增加。
本文提出了矩阵补全问题的一种分布性推广,其中每个条目是概率分布而非标量,利用核均值嵌入和Tucker秩来捕捉低秩结构。作者提出了一种新的估计器,并给出了非渐近误差界,通过在合成数据和真实世界数据上的实验证明了该方法的有效性。
本文形式化了成对参考对齐作为模型级别的序数可观测变量,定义了一个统计量来衡量模型评分与参考偏好分布之间的一致性,并给出了有限样本估计量以及在Qwen2.5模型和RewardBench上的实证研究。
OpenAI 聘请了统计学家苏伟杰(Weijie Su),他毕业于北京大学数学专业第一名,并且是今年“统计学诺贝尔奖”得主,将休假从沃顿商学院来训练 AI 模型。