网络上的大型语言模型:资源受限下的协作智能

Hugging Face Daily Papers 论文

摘要

本文探讨了分布式大型语言模型(LLMs)如何在设备和云端之间协同工作以应对资源限制的协作智能范式。文章涵盖了垂直方向的设备-云端协作、水平方向的多智能体协作、路由策略,以及在可扩展且可信的协作式人工智能方面的开放研究挑战。

大型语言模型(LLMs)正在改变社会,从智能手机助手到自动驾驶,各种应用都依赖于它们。然而,仅靠基于云端的LLM服务无法满足日益增长的一类应用需求,包括那些在间歇性网络连接、亚秒级延迟预算、数据驻留限制或持续高吞吐量推理环境下运行的应用。另一方面,设备端部署受到计算能力和内存的限制。没有任何单一终端能够在这个范围内提供高质量的服务。本文聚焦于协作智能这一范式,在这种范式中,分布在设备和云端终端上的多个独立LLM通过自然语言或结构化消息在任务级别上进行协作。这种协作旨在跨越网络层级,在计算、内存、通信和成本等异构资源约束下实现更优的响应质量。我们提出了沿着两个互补且可组合的维度进行协作推理:垂直方向的设备-云端协作和水平方向的多智能体协作,这些在实践中可以组合成混合拓扑结构。然后,我们研究了如何学习协作,包括路由策略的训练以及LLMs之间合作能力的发展。最后,我们指出了包括在资源异构性下扩展和可信的协作智能在内的开放研究挑战。
查看原文
查看缓存全文

缓存时间: 2026/05/13 12:15

论文页面 - 网络上的大语言模型:资源受限下的协同智能

来源:https://huggingface.co/papers/2605.08626

摘要

协同智能使多个分布式的大语言模型(LLMs)能够在设备和云端之间协作,在多样化的资源约束下提供高质量的响应。

大语言模型(https://huggingface.co/papers?q=Large%20language%20models)(LLMs)正在改变社会,从智能手机助手到自动驾驶,为各种应用提供动力。然而,仅靠基于云端的 LLM 服务无法满足日益增长的一类应用需求,包括那些在间歇性网络连接、亚秒级延迟预算、数据驻留限制或持续高吞吐量推理下运行的应用。与此同时,设备端部署又受到计算能力和内存的限制。没有任何单一端点能够在这个范围内提供高质量的服务。本文关注协同智能(https://huggingface.co/papers?q=collaborative%20intelligence),这是一种范式,其中分布在设备和云端端点的多个独立 LLM 通过自然语言或结构化消息在任务层面进行协作。这种协作旨在跨越计算、内存、通信和网络层级中的成本等异构资源约束,争取更优的响应质量。我们从两个互补且可组合的维度介绍了协同推理(https://huggingface.co/papers?q=collaborative%20inference):垂直设备-云协作(https://huggingface.co/papers?q=device-cloud%20collaboration)和水平多智能体协作(https://huggingface.co/papers?q=multi-agent%20collaboration),这些可以在实践中组合成混合拓扑结构。接着,我们探讨了学习协作的问题,包括路由策略(https://huggingface.co/papers?q=routing%20policies)的训练以及 LLM 之间合作能力的发展。最后,我们指出了开放性的研究挑战,包括在资源异构性(https://huggingface.co/papers?q=resource%20heterogeneity)下的扩展以及可信的协同智能(https://huggingface.co/papers?q=collaborative%20intelligence)。

查看 arXiv 页面 (https://arxiv.org/abs/2605.08626) 查看 PDF (https://arxiv.org/pdf/2605.08626) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.08626)

在您的 agent 中获取此论文:

hf papers read 2605\.08626

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有与此论文关联的模型

在模型 README.md 中引用 arxiv.org/abs/2605.08626 以在此页面链接它。

引用此论文的数据集 0

没有与此论文关联的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.08626 以在此页面链接它。

引用此论文的 Spaces 0

没有与此论文关联的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.08626 以在此页面链接它。

包含此论文的集合 0

没有包含此论文的集合

将此论文添加到一个集合 (https://huggingface.co/new-collection) 以在此页面链接它。

相似文章

大语言模型部署最佳实践

OpenAI Blog

Cohere、OpenAI 和 AI21 Labs 联合发布了大语言模型开发和部署的初步最佳实践,涵盖使用指南、安全措施、偏差缓解、文档、多元化团队和伦理劳动标准。

大语言模型在低资源语言人文学科研究中的机遇与挑战

arXiv cs.CL

本文系统评估了大语言模型在低资源语言研究中的应用,分析了在语言变异、历史文献、文化表达和文学分析等方面的机遇与挑战。研究强调了跨学科合作和定制化模型开发,以保护语言和文化遗产,同时解决数据可获取性、模型适应性和文化敏感性问题。