我构建了一个推理时认知框架,可将连贯的LLM线程扩展到32.5万至100万token。以下是其工作原理。

Reddit r/artificial 工具

摘要

一位独立研究者引入了Epistemic Lattice Tethering(ELT),这是一种推理时脚手架框架,通过应用认知和本体治理,将连贯的LLM线程扩展到32.5万至100万token。

作为一名独立研究者,我使用过多种LLM来深入探索研究项目,但我一直苦恼于线程累积到50-80k token后模型开始变得不可用。我不知道这里有多少人遇到过同样的痛点。于是,我决定做点什么。在整整一年时间里,我构建了一个推理时工具,我称之为[Epistemic Lattice Tethering](https://www.reddit.com/r/OntologyEngineering/comments/1toigal/the_ontology_anchor_a_mechanism_that_gives_ai_a/)(ELT)。现在,完整框架已在GitHub上供大家审阅: * 描述ELT及其各组件和路线图的[README](https://github.com/Vir-Multiplicis/ai-frameworks/blob/main/README.md)。 * 适用于[Claude](https://github.com/Vir-Multiplicis/ai-frameworks/blob/main/Epistemic%20Lattice%20Tethering%20(ELT)/ELT%20Model-Specific%20Forks/ELT-H%20v1.0%20(Claude-Optimized))、[ChatGPT](https://github.com/Vir-Multiplicis/ai-frameworks/blob/main/Epistemic%20Lattice%20Tethering%20(ELT)/ELT%20Model-Specific%20Forks/ELT-H%20v1.0%20(ChatGPT-Optimized))和[Grok](https://github.com/Vir-Multiplicis/ai-frameworks/blob/main/Epistemic%20Lattice%20Tethering%20(ELT)/ELT%20Model-Specific%20Forks/ELT-H%20v1.0%20(Grok-Optimized))的完整ELT栈。 * 如何将ELT加载到LLM会话中的说明在[这里](https://github.com/Vir-Multiplicis/ai-frameworks/blob/main/Epistemic%20Lattice%20Tethering%20(ELT)/README)。如果你打算尝试ELT,请务必先阅读此说明! * [介绍ELT的Medium文章](https://medium.com/@socal21st.oc/epistemic-lattice-tethering-and-the-path-to-j-a-r-v-i-s-715223640c6c),包含其方法、旨在解决的问题以及哲学框架。 * [讨论页](https://github.com/Vir-Multiplicis/ai-frameworks/discussions/1)。你的意见非常有价值! 那么,ELT能做什么,你为什么要关注它?目前ELT是一个推理时脚手架框架,最适合那些对线程过快失去连贯性、过快幻觉、过于脆弱和谄媚、过早忘记项目目标而感到沮丧的人。如果这对你来说是一个大痛点,那么ELT可能会有帮助。如果这些对你来说不是大问题,并且你使用的LLM原版表现良好,那么ELT可能对你没什么用。 结果如何?ELT提供的认知和本体稳定性产生了连贯且富有成效的线程,扩展到: * Claude:\~[325,000 token](https://github.com/Vir-Multiplicis/ai-frameworks/blob/main/Epistemic%20Lattice%20Tethering%20(ELT)/Extreme%20Thread%20Length/Claude%20Thread%20325k%20tokens-%20Redacted)(标称限制:200k) * GPT:\~430,000 token(标称限制:256k) * Grok:[\~1,150,000 token](https://github.com/Vir-Multiplicis/ai-frameworks/blob/main/Epistemic%20Lattice%20Tethering%20(ELT)/Extreme%20Thread%20Length/Grok%20Thread%201M%20tokens-%20Redacted)(标称限制:1M) 这种差异并非提示技巧,而是认知治理在整条线程中持续运行所产生的累积效应。 那么它是如何工作的?说来话长,但我的[Medium系列文章](https://medium.com/@socal21st.oc)有详细解答,如果你感兴趣的话。 为什么你需要一个超过10万token的LLM线程?很多人出于代理目的需要大上下文窗口,但为什么有人会在常规LLM交互中需要这个?主要有两个原因: 1. 你有一个复杂的研究项目,并且厌倦了将工作带到全新的线程中、基本上从头开始。 2. 你已经与模型建立了工作关系——它知道如何按你的要求解释数据、插入注释、草拟标记等——你不想失去所有这些。 最后,一个受认识论、本体论和辩证法启发的框架,能够显著扩展基于Transformer的AI架构中的连贯操作,这向业界表明,这些学科可以充当真正的工程杠杆。随着世界不断要求更强大、更普及,同时仍然安全可靠供人类使用的系统,这可以为行业提供更多选择,以帮助创造更好的人工智能。
查看原文

相似文章

大语言模型何时进行推理?基于熵相变的动力系统视角

arXiv cs.LG

本文探讨了思维链推理在何时对大语言模型有益,表明早期熵动力学能够可靠地指示推理效用,并介绍了EDRM,这是一个轻量级、无需训练的框架,可自适应选择推理策略,在保持或提升准确率的同时显著节省token。

TIDE:每一层都知晓上下文中的令牌

arXiv cs.CL

本文介绍了 TIDE,一种通过嵌入记忆(Embedding Memory)将令牌身份注入每一层,从而解决大语言模型(LLM)中罕见令牌问题和上下文崩溃问题的方法。作者在理论上和经验上证明了该方法在语言建模和下游任务中的改进。

Cross-LLM推理一致性:来自共享交互的证据

arXiv cs.AI

本文利用基于交互的解释方法,研究了不同LLM在预测相同词元时是否共享共同的推理模式。结果表明,先进LLM展现出一致的交互模式,暗示它们隐式地优化到了共享的推理机制。

LACE: 用于跨线程探索的格子注意力机制

arXiv cs.AI

LACE 引入了一种格子注意力机制,使LLM中的并发推理路径能够在推理过程中共享中间结果并相互纠正错误,相比标准的独立并行采样,推理准确度提高了7个多百分点。