标签
本文介绍了一种基于专家编写解决方案的token级统计的代理指标,用于预测LLM下游性能,在模型选择、预训练数据选择和训练时预测方面显著优于基于损失的方法。
本文提出双可预测性(P)和信息数字孪生(IDT),一种使用令牌频率统计来监控多轮LLM交互中对话一致性的轻量级方法,无需使用嵌入或模型内部信息。该方法在检测矛盾和话题转换时达到100%的敏感度,同时为扩展LLM部署建立了实用的监控框架。