batch-inference

标签

Cards List
#batch-inference

Show HN: Tiny-vLLM – 使用C++和CUDA的高性能LLM推理引擎

Hacker News Top · 5天前 缓存

Tiny-vLLM是一个高性能的LLM推理引擎,采用C++和CUDA实现,提供连续批处理和PagedAttention等特性,并作为教育资源。

1 人收藏 1 人点赞
#batch-inference

@raydistributed: 在Snowflake上试用基于Ray的批量推理

X AI KOLs Following · 2026-05-21 缓存

Snowflake现在支持基于Ray的作业级批量推理,通过单一API调用即可在数百万非结构化数据点上执行分布式GPU,从而扩展模型推理。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈