EMiX:超越单FPGA限制的仿真
摘要
介绍了EMiX,一种可扩展的多FPGA框架,用于仿真超出单FPGA资源限制的多核RISC-V架构,并通过跨八个FPGA的64核系统进行了演示。
查看缓存全文
缓存时间: 2026/05/16 09:38
# EMiX: 超越单FPGA限制的仿真 来源:https://arxiv.org/abs/2604.27012 查看PDF (https://arxiv.org/pdf/2604.27012)HTML(实验性)(https://arxiv.org/html/2604.27012v1) > 摘要:FPGA级仿真是芯片设计预硅验证的关键步骤。然而,仿真大规模多核系统日益超出单个FPGA的硬件资源容量,限制了全系统仿真的可行性。为应对这一挑战,我们提出EMiX,一种可扩展的多FPGA框架,可实现多核RISC-V架构的分布式仿真,超越单FPGA资源限制。EMiX将单片多核设计系统地划分为多个组件,并将其部署在多个互联的FPGA上,有效利用FPGA间互连来平衡可扩展性和性能,而无需进行根本性的RTL重新设计。我们使用八个互联的Alveo U55c FPGA(在核心和FPGA数量上可扩展)原型化了一个64核架构的EMiX,成功演示了包括Linux启动在内的全系统执行。EMiX将作为开源平台发布。 ## 提交历史 来自:Behzad Salami [查看电子邮件 (https://arxiv.org/show-email/5c931f29/2604.27012)] **\[v1\]** 2026年4月29日星期三 10:32:10 UTC(704 KB)
相似文章
REAP 剪枝版 Nemotron-3-Super(512→256 experts)+ GRPO 微调 + FP8/AWQ,AIME 2026 90%+,附 Benchmark
社区发布:用 REAP 把 NVIDIA Nemotron-3-Super-120B 剪到 64B,再用 GRPO 做数学强化微调,最后 AWQ/FP8 量化,单卡 H100/RTX PRO 6000 即可跑到 AIME 2026 90%+。
@bastani_behnam:我们刚刚发布了如何在 27B 模型上解锁 +50% 推理容量——无需新 GPU、无需新节点,成本仅为一小部分……
OpenInfer 展示“垂直拆解”,通过单节点 AMD EPYC CPU 与 Nvidia L40S GPU 协同执行量化层,并配合自定义 SLA 感知调度器,将 Qwen 3.5 27B 的吞吐量提升约 50%。
Metal-Sci:用于 Apple Silicon 上 LLM 驱动演化内核搜索的科学计算基准
Metal-Sci 推出了一项包含 10 个任务的基准测试,用于优化 Apple Silicon 上的科学计算内核,并配套了由大语言模型驱动的演化搜索框架。该研究评估了 Claude Opus 4.7、Gemini 3.1 Pro 和 GPT 5.5 等模型,在实现显著加速的同时,利用分布外测试来捕获静默的性能退化问题。
@LinQingV: 之前做LLM推理芯片架构探索的时候,我把四大AI推理ASIC公司的架构都翻过一遍。Groq、SambaNova、Tenstorrent、Cerebras。前三家的思路虽然各有侧重,但底层逻辑都在同一个框架里:片上大SRAM + dataf…
The article analyzes the AI inference ASIC architectures of Groq, SambaNova, Tenstorrent, and Cerebras, highlighting Cerebras's unique wafer-scale engine design. It discusses the benefits of deterministic latency and high bandwidth for LLM inference, while noting challenges like yield, cost, and KV cache bottlenecks.
Sipeed的K3 RISC-V单板计算机可运行30B参数大语言模型,提供60 TOPS(INT4)性能,支持BF16/FP16/INT4
Sipeed新款K3 RISC-V单板计算机配备32GB LPDDR5内存和60 TOPS的NPU,可本地推理大语言模型,速度高达每秒15个token。