@rohanpaul_ai: 大型语言模型可能不需要人类风格的语言。即，未来的人工智能系统可能会通过使用密集的、模型可读的消息来节省上下文空间，而不是冗长的常规散文。

X AI KOLs Following 2026/06/25 21:45 论文

llm compression context-efficiency babeltele readable-language research language-models

摘要

本文介绍了BabelTele，一种压缩写作风格，通过使用缩写、符号和多语言片段将文本长度减少72.1%，同时为LLM保留了99.5%的语义保真度，论证了人类可读性与机器可恢复性是可分离的。

大型语言模型可能不需要人类风格的语言。即，未来的人工智能系统可能会通过使用密集的、模型可读的消息来节省上下文空间，而不是冗长的常规散文。作者提出了BabelTele，一种压缩写作风格，可以混合使用缩写、符号、不同语言的片段以及不寻常的结构。对于一个有能力的语言模型来说，它仍然能够承载足够的结构来回答问题、保存记忆以及在代理之间传递信息。关键在于，人类可读性、自然语言流畅性和机器可恢复性是可分离的属性。人类散文之所以带有冗余，是因为人类需要节奏、语法、上下文和确认。在大量符号混合体上训练的模型可能不需要每次都要有这些支撑。在该论文最强的结果中，BabelTele保持了约99.5%的语义保真度，同时将文本压缩到原始长度的27.9%。 ---- 链接 – arxiv.org/abs/2606.19857 标题：“LLMs Do Not Always Need Readable Language”

查看原文

查看缓存全文

缓存时间: 2026/06/26 10:10

LLMs 或许不需要人类风格的语言。

也就是说，未来的人工智能系统可能会使用密集的、模型可读的讯息来代替冗长的自然语言，以节省上下文空间。

作者提出了 BabelTele，一种压缩写作风格，可以混合缩写、符号、来自不同语言的片段以及非常规结构。

对于一个能力足够强的语言模型来说，这种风格仍然能够承载足够的信息结构来完成提问、保持记忆以及在智能体之间传递信息。

关键在于，人类可读性、自然语言流畅性与机器可恢复性是三种可以分离的属性。

人类语言之所以存在冗余，是因为人类需要节奏感、语法、上下文以及确认感。

而基于海量符号混合物训练出的模型，可能并不需要每次都依靠这些支撑结构。

论文中最有力的结果表明，BabelTele 能够在将文本压缩至原长度 27.9% 的同时，保留约 99.5% 的语义保真度。

链接 – arxiv. org/abs/2606.19857

标题：“LLMs Do Not Always Need Readable Language”

@rohanpaul_ai: 大型语言模型可能不需要人类风格的语言。即，未来的人工智能系统可能会通过使用密集的、模型可读的消息来节省上下文空间，而不是冗长的常规散文。

相似文章

LLM的最佳使用方式会是什么样？

为什么不能训练LLMs用一种优化的AI语言而非英语来思考？

自回归大语言模型正式与鱼共眠（Yann LeCun是对的）

一个温和的建议：重新格式化所有内容，使文档更易于 AI 处理 (5分钟阅读)

# 巴别塔的大语言模型

提交意见反馈