标签
本文展示了 8 个本地大语言模型在 RTX 3090 上的基准测试结果,显示功率能效在约 225W 时达到峰值,而在满功率下收益递减。
作者报告成功在单个 MI300X 上使用 Qwen2.5-32B 和 FAISS 运行 MRCR v2,实现 1M 上下文长度,并以低成本获得有竞争力的分数。
KernelBench-X是一个用于评估LLM生成GPU内核的新基准,揭示了任务结构对正确性的影响大于方法设计,且正确性并不保证硬件效率。