标签
一本正在编写中的开放手册,解释LLM推理内部机制,包括GPU内存层次结构、KV缓存、批处理以及vLLM和TensorRT-LLM等流行推理引擎。
一条推文推荐了《语言AI手册》,这是一本免费在线资源,涵盖从经典NLP到现代Transformers、量化、强化学习和安全性等LLM组件。