标签
本文形式化了LLM维基的流式知识编译,引入了一个重要性信号,用于在token预算下从流式语料库中主动固定重要文档。它证明了O(√(T log K))的遗憾界,并在金融和维基百科领域验证了该方法,表明遗憾分析是一种可靠的评估指标。
本文介绍了一种面向自适应查询和选择LLM API的在线上下文Pandora's Box模型,提出了一种结合GMM估计与UCB风格置信区间的学习方法,并证明了维度相关的遗憾界。
提出了一种用于移动众包中LLM微调的真实在线偏好聚合机制,解决了策略性工人误报问题,并实现了次线性遗憾。
本笔记分享了一个研究瞬间,Codex 帮助找到了私有线性赌博机中一种新的稀有切换规则,利用广义瑞利商克服了因高斯噪声导致的行列式单调性失效问题。