标签
本文研究了算法机器学习(如kNN、随机森林)在使用概率抽样设计而非假定数据模型的情况下,对有限总体实现设计无偏预测和分类的条件。它将调查抽样中的基于设计的推断扩展到机器学习算法。
本文主张采用序贯推断框架来增强LLM的可信度,通过将交互建模为依赖随机过程,确保在重复使用下的有效性,并实现行为变化的在线监控。
本文识别了当启发式价值函数在评估前未固定时AIVAT方差缩减技术的脆弱性,并展示了如何传播启发式不确定性以进一步减少方差,从而将得出统计结论所需的样本数量减少43%。
本文分析了受 TurboQuant 启发的 KV 缓存量化方案,利用统计推断和新的 6D 误差框架来评估 KL 散度、几何误差等质量指标。
本文引入了一种统计框架,利用安全随时有效推断(SAVI)技术对 AI 系统进行自适应审计,旨在基于有限数据得出严谨的结论。文章提出了一种“通过赌博进行测试”的方法,以验证模型的鲁棒性,同时在自适应采样过程中控制第一类错误。