unsupervised

#unsupervised

面向NMT与抽象式摘要中幻觉检测的逐层最优传输

arXiv cs.CL ↗ · 4天前缓存

本文将对基于最优传输的幻觉检测扩展到NMT和抽象式摘要中的所有解码器层，发现检测主要集中在早期层，并且由于忠实性失败无法通过注意力集中检测到，几何信号在摘要任务中迁移效果不佳。

0 人收藏 0 人点赞

#unsupervised

arXiv cs.LG ↗ · 6天前缓存

本文提出全局-局部不确定性（GLU），一种无监督单次评分方法，融合词元级局部熵与隐藏状态几何全局熵，用于LLM不确定性量化，证明两者近乎正交，共同捕捉自信但错误的失效模式。

0 人收藏 0 人点赞

#unsupervised

Hugging Face Daily Papers ↗ · 2026-05-11 缓存

本文提出无监督过程奖励模型（uPRM），通过利用LLM的下一个令牌概率识别错误推理步骤，从而消除人工标注需求，在准确率上相比LLM-as-a-Judge提升高达15%，并且作为验证器和奖励信号时表现与有监督PRM相当。

0 人收藏 0 人点赞

#unsupervised

arXiv cs.CL ↗ · 2026-05-08 缓存

介绍了 LoVer，一种使用逻辑规则（否定一致性、组内一致性和组间一致性）来在无标签数据下提升大语言模型推理能力的无监督验证器，在推理基准测试中达到了接近监督验证器的性能。

0 人收藏 0 人点赞

#unsupervised

Reddit r/artificial ↗ · 2026-04-22

一位开发者构建了一个无监督多智能体流水线，让 Claude 和 GPT-4 自主筹备并托管一档播客：自动选题、策划单集内容，并在 10 轮对话后输出文本转语音。

0 人收藏 0 人点赞