标签
vLLM 引入了 Semantic Router,这是一种服务层原语,通过微代理实现多个模型之间的协作,使得路由器能够在不修改模型权重的情况下提升输出质量。
本文提出了全球AI模型网络(AI-ModelNet)的概念,这是一种新颖的范式,旨在连接各类大模型、共享能力并实现协同推理。作者综述了当前单模型和多模型研究现状,阐述了层次化架构,并通过原型系统和应用案例验证了其可行性。
本文介绍了一种对话语音代理系统,该系统使用轻量级设备端“Talker”模型立即开始响应,然后随着前沿大语言模型“Reasoner”知识的可用而将其融入,实现了7-19倍的首响应时间缩短,同时在笔记本电脑上达到接近前沿水平的性能。
本文介绍了“参与扩展”这一新范式,通过多样化利益相关者的贡献构建模块化AI系统。其中,小型模型协作在多种任务上比单体LLM性能高出最多15.4%,展现出涌现能力并改善多样性收益。