标签
本文提出一个统一框架,用于在企业环境中定制和部署基于LLM的多智能体系统,结合了持续预训练、微调和偏好优化的模型定制,以及使用推测解码和FP8量化的推理优化。在保持企业工作负载性能的同时,实现了4.48倍的吞吐量提升。