标签
来自肯尼索州立大学的研究人员利用可解释语言特征(词汇多样性、可读性、情感特征)对检测AI生成假新闻的跨提示词泛化能力展开研究。在一种提示策略上训练、在另一种提示策略上测试的随机森林分类器取得了0.988至1.000的AUC值,表明这些特征能够捕捉AI生成文本的稳定且可泛化的属性。
一项大规模实证研究对284个语言特征在27个大语言模型和10个文本领域中的表现进行了分析,以评估哪些特征能够可靠地检测AI生成文本。研究发现,词汇丰富度指标是跨领域和跨模型最稳健的信号,而许多其他已提出的指标则高度依赖具体上下文。
一条推文,宣布基于语言特征对 Dharmamitra.org 上的梵文文献进行了初步年代测定,并附有该平台链接。该平台利用人工智能(包括 Gemini API)支持对古籍的学术研究与翻译。
本文研究训练对齐目标如何重塑大型语言模型的语言特征,发现指令微调系统坍塌语言熵的程度显著超过规模预期,并且熵正则化可以缓解这种坍塌。