标签
本文指出了人工智能法律推理中法律解释与形式逻辑之间的系统性鸿沟,提出了一种神经符号方法来弥合这一鸿沟,并展示了在严格形式蕴含条件下重新标注法律自然语言推理数据时出现的显著标签偏移。
本文介绍了一种神经网络架构,该架构从完全观测到的状态轨迹中学习提升动作模式,其中动作参数未观测,旨在实现神经符号模型规划域的鲁棒学习。
介绍了Ethical Immanence,一种新型AI对齐范式,通过损失函数正则化和元认知检测将道德行为嵌入模型架构,为开源LLM带来更低成本和内在稳定性。
ReaComp将LLM推理轨迹编译为可重用的符号程序合成器,在程序合成基准测试中实现了强大的准确性,同时消除了测试时的LLM调用,显著降低了计算成本。
TabularMath 引入了一个基准和 AutoT2T 框架来评估 LLM 对表格数据的数学推理能力,揭示表格复杂性、数据质量和模态对模型性能的重大影响。该研究通过系统地评估模型对真实场景中不完整或不一致表格信息的鲁棒性,填补了 LLM 评估中的空白。