confidence-estimation

#confidence-estimation

面向可靠LLM判断的边际自适应置信度排序

arXiv cs.LG ↗ · 18小时前缓存

本文提出了一种针对LLM作为评判系统的基于边际的置信度排序方法，通过学习专用估计器来确保置信度与人类分歧风险之间的单调性，具有泛化保证，并在多个数据集上提高了排序准确性。

0 人收藏 0 人点赞

#confidence-estimation

arXiv cs.LG ↗ · 3天前缓存

本文提出一种元认知框架，将LLMs中的监控与推理分离，利用解决前的已知感（feeling-of-knowing）和解决后的学习判断（judgment-of-learning）信号来控制何时信任、重试或聚合答案，在不更新参数的情况下提升文本、代码和多模态基准测试的准确率。

0 人收藏 0 人点赞