标签
本文对自然语言到一阶逻辑数据集FOLIO和MALLS进行了系统的人工审查,分别发现39%和36%的形式化错误。它发布了修正后的标准答案和一个辅助人工重标的LLM框架,该框架将审查工作量减少到少于24%的实例即可达到90%的准确率。
本文利用结构因果模型对二元道德理论进行了代数形式化,并展示了在AI政策设计中的应用。
本文介绍了 LANTERN,这是一个用于强化学习中多源神经符号迁移的框架,它利用大语言模型生成任务自动机,并结合自适应门控机制来提高样本效率。