标签
本文研究了LLM解码过程中的早期令牌置信度信号是否能预测多智能体辩论系统中的推理质量,发现前几个生成令牌的置信度是基于评分标准的论文分数的最强预测因子。
本文介绍了 TIDE,一种新颖的框架,它整合了试炼与辩论机制,以改善基于标准的提示优化,用于议论文理解任务,如自动作文评分、论证成分检测和论证关系识别。实验结果显示性能提升,突显了结合基于提示的方法进行鲁棒论证分析的潜力。