台湾公司Skymizer发布HTX301 - 配备384GB内存、功耗约240瓦的PCIE推理卡
摘要
Skymizer发布HTX301,一款能够本地运行700B参数大语言模型、拥有高内存和低功耗的PCIE推理卡。
暂无内容
查看缓存全文
缓存时间: 2026/05/08 10:03
# Skymizer 发布 HTX301 — 重塑本地 AI 推理
来源:https://skymizer.ai/skymizer-announces-htx301-reinventing-on-prem-ai-inference/
跳转到内容 (https://skymizer.ai/skymizer-announces-htx301-reinventing-on-prem-ai-inference/#content)
- 分类 (https://skymizer.ai/skymizer-announces-htx301-reinventing-on-prem-ai-inference/#)
## Skymizer 发布 HTX301 — 重塑本地 AI 推理
**Skymizer 今日宣布推出 HTX301**,这是基于 HyperThought™ 平台构建的首款参考芯片,重新定义了企业部署和扩展 AI 推理的方式。
首次实现**超大规模模型可在单一 PCIe 卡上运行**。凭借**六颗 HTX301 芯片和 384GB 内存**,企业现在能够**以仅约 240W 的功耗在本地执行 7000 亿参数的大语言模型推理**——无需庞大的 GPU 集群、NVLink/NVSwitch 互联以及复杂的冷却基础设施。
为推理主导型 AI 新时代而生,HyperThought™ 引入了一种根本不同的方法。通过**将预填充和解码工作负载分离**,并搭配**解码优先芯片**与智能软件编排栈,HTX301 在实际部署中实现了**更高的利用率、更低的延迟以及显著提升的能效**。
*HyperThought™* 在统一架构下,借助 LISA™(语言指令集架构)的支持,可无缝从**终端设备扩展到本地环境**,让企业能够**为 40 亿到 7000 亿参数的模型合理配置规模,而无需过度预置。**
其结果是一类新型 AI 基础设施:**数据主权、可预测成本以及确定性性能**——解锁企业应用中的智能体 AI 工作流,无需承担按词元付费的云端推理隐性成本。
“***推理已成为主导性的 AI 工作负载,基础设施需要反映这一现实。******超大规模 GPU 集群支撑超大语言模型的时代已经结束。HyperThought 将 AI 从仅限超大规模云服务商的复杂性,转变为每个企业都能使用的单卡简洁方案。***”
—— William Wei,Skymizer 首席营销官
“***专用解码硬件配合智能软件栈,编排每一次推理工作负载——这才是大规模分离预填充/解码的正确方式。***”
—— Luba Tang,Skymizer 首席技术官
随着 AI 模型从**数十亿扩展到数万亿参数**,HTX301 标志着超越了蛮力 GPU 扩展的关键一步——为企业提供了一条**更简单、更高效、更易于部署的 AI 路径。**
#### 继续阅读
skymizer logo
## 总部
台湾台北市内湖区瑞光路408号12楼之2(11492)
## 新竹办公室
台湾新竹市光复路二段101号创新育成中心R819室
© 2026 • Skymizer Taiwan Inc.
页面加载链接 (https://skymizer.ai/skymizer-announces-htx301-reinventing-on-prem-ai-inference/#)
相似文章
SK hynix 开始为 NVIDIA AI 服务器量产 192GB SOCAMM2
SK hynix 已开始量产专为 NVIDIA AI 服务器优化的 192GB SOCAMM2 内存模块,与传统 RDIMM 相比,带宽提升一倍以上,能效提升 75%,解决了 AI 训练工作负载中的内存带宽瓶颈。
@Prince_Canuma:我的 MLX 与研究家用计算平台:• M3 Ultra — 512GB(由社区与 @wai_protocol 赞助)• RTX PRO 6000 — 96GB…
一位研究人员分享了用于 MLX 和 AI 研究的家用计算配置,包含配备 512GB 的 M3 Ultra、配备 96GB 的 RTX PRO 6000,以及用于模型移植与压力测试的配备 96GB 的 M3 Max。
AMD将发布可插拔GPU
AMD即将发布基于PCIe的新型可插拔Instinct GPU,面向企业AI市场,为本地大语言模型部署提供潜在的新硬件选择。
@sudoingX:这台笔记本通过 Hermes agent 以 99% GPU 利用率本地跑 31B 模型,持续 15 tok/s,22.8 o…
一台笔记本借助 Hermes agent 本地运行 31B 模型,速度 15 tok/s,显存占用 22.8 GB,功耗 94 W,实现完全自主、私密、无需云端的 AI 推理。
2台配备 512GB 内存的 M3 Ultra Mac Studio
硬件投入约 2.5 万美元。告诉我你们希望我在这两台设备上部署什么模型,我会协助测试。目前我已通过 Exo 后端跑通了 DeepSeek v3.2 Q8 版本;当前每台设备均在运行 GLM 5.1 Q4(正在排查为何 Exo 无法加载 Q8 版本)。静候社区完成 Kimi 2.6 针对 MLX/mmap 的优化适配。