@rohanpaul_ai: 大型语言模型可能不需要人类风格的语言。即,未来的人工智能系统可能会通过使用密集的、模型可读的消息来节省上下文空间,而不是冗长的常规散文。
摘要
本文介绍了BabelTele,一种压缩写作风格,通过使用缩写、符号和多语言片段将文本长度减少72.1%,同时为LLM保留了99.5%的语义保真度,论证了人类可读性与机器可恢复性是可分离的。
查看缓存全文
缓存时间: 2026/06/26 10:10
LLMs 或许不需要人类风格的语言。
也就是说,未来的人工智能系统可能会使用密集的、模型可读的讯息来代替冗长的自然语言,以节省上下文空间。
作者提出了 BabelTele,一种压缩写作风格,可以混合缩写、符号、来自不同语言的片段以及非常规结构。
对于一个能力足够强的语言模型来说,这种风格仍然能够承载足够的信息结构来完成提问、保持记忆以及在智能体之间传递信息。
关键在于,人类可读性、自然语言流畅性与机器可恢复性是三种可以分离的属性。
人类语言之所以存在冗余,是因为人类需要节奏感、语法、上下文以及确认感。
而基于海量符号混合物训练出的模型,可能并不需要每次都依靠这些支撑结构。
论文中最有力的结果表明,BabelTele 能够在将文本压缩至原长度 27.9% 的同时,保留约 99.5% 的语义保真度。
链接 – arxiv. org/abs/2606.19857
标题:“LLMs Do Not Always Need Readable Language”
相似文章
LLM的最佳使用方式会是什么样?
探讨一种推测性想法:通过适应LLM的原生通信模式(例如使用神经语)来优化人类与LLM的交互,而不是强迫它们适应人类语言。
为什么不能训练LLMs用一种优化的AI语言而非英语来思考?
一个推测性的讨论,质疑为什么LLMs没有被训练使用优化的内部语言而非自然语言来思考,以及这是否能提高效率。
自回归大语言模型正式与鱼共眠(Yann LeCun是对的)
CETI项目使用大语言模型的架构解码抹香鲸的咔嗒声,揭示了其语音字母表,但也凸显出AI的统计模式匹配缺乏真正的理解。文章认为,AGI需要具身化、多模态的根基,而不仅仅是基于文本的模型扩展。
一个温和的建议:重新格式化所有内容,使文档更易于 AI 处理 (5分钟阅读)
LF AI & Data Foundation 成立了一个工作组来开发 DocLang,这是一种对 AI 友好的文档格式,由 IBM、NVIDIA、Red Hat、ABBYY、HumanSignal 和 Forgis 支持,旨在解决现有格式(如 PDF 和 HTML)不适合 AI 解析的问题。
# 巴别塔的大语言模型
本文反思了文本生成的历史,在现代大语言模型(如 GPT-4)与豪尔赫·路易斯·博尔赫斯和克劳德·香农的早期概念之间建立了联系。文章探讨了香农的概率实验以及博尔赫斯“巴别图书馆”的隐喻,如何有助于阐明关于生成文本本质和数据结构的根本问题。