标签
作者反思了为其 Intertwingler 应用服务器解决复杂依赖关系图的挑战,旨在实现密集超媒体以减少过多的读写需求,同时批评人工智能生成过多内容。
本文介绍了基于依据的延续(Grounded Continuation),一种用于LLM对话的线性时间运行时验证器,它维护一个显式依赖图,以检测下一句话是否得到先前对话的支持,在包括LongMemEval和LoCoMo的基准测试中,相比基线取得了准确率提升。
MathAtlas 是一个针对研究生级别数学的自动形式化的大规模基准测试,包含从103本教科书中提取的约5.2万个定理和定义,并附带一个包含约17.8万条关系的数学依赖图。实验表明,最先进的模型正确率最高仅为9.8%,凸显了其难度。