标签
论文提出了一种基于委托的聚合器,名为传播代理投票(PPV),它利用字母熵和推理几何改进多样本LLM推理中的多数投票,在MMLU-Pro上取得了收益,无需外部标签或辅助训练。
这篇arXiv论文提出了一种协议,用于评估ChatGPT在生成和验证生物医学关联方面的能力,采用基于RAG的跨模型多数投票工作流,以解决幻觉问题和本体论局限性。
本论文分析了AIMO 3的推理时优化技术,发现模型能力优于提示工程和多样化采样策略。研究表明高温度采样已经能够最大程度地去相关化误差,为基于提示的改进留下了很少余地,并识别出单个模型pass@20与多数投票共识之间存在6分的选择损失差距。