Skymizer Taiwan Inc. 发表突破性架构单卡实现超大型 LLM 推论

美通社
2026/04/24 08:43
分享

提供业界领先的效能功耗比，单张 PCIe 界面卡即可执行 700B 参数模型——无需 GPU 丛集,亦无须密集散热

于 COMPUTEX 2026 展前，AI 推论解决方案先驱 Skymizer Taiwan Inc.( 台湾发展软件科技股份有限公司)今日预先揭露其在地端 AI 部署的重大突破——HTX301 推论芯片，内建于 COMPUTEX 2025 首次发表的软硬件协同设计平台 HyperThought™。HTX301 为 HyperThought IP 的首款参考芯片，该 IP 为 AI 推论定义了长期的架构愿景。此首版矽芯片在大幅简化超大型模型推论所需基础设施的同时，亦带来卓越的效能功耗比。

打破 GPU 对超大型模型推论的垄断

一直以来，在地端部署超大型模型皆需仰赖庞大的 GPU 丛集、NVLink/NVSwitch 等高速互连技术，以及密集的散热系统——导致成本高昂且维运复杂。

Skymizer 于业界首次将此愿景化为可能。

仅需一张 PCIe 界面卡——搭载六颗 HTX301 芯片与 384 GB 存储器——企业即可于本地执行 700B 参数模型推论，每卡功耗仅约 240W。

HyperThought 针对 不同尺寸与形式的弹性扩展 而设计——可封装为 SoC 或界面卡，自 边缘到迷你数据中心 皆可部署。单卡可由 1 颗芯片扩展至 6 颗芯片，存储器容量介于 32 GB 至 384 GB，支持 4B 至 700B 参数 的模型——让企业依实际工作负载需求，精准规划部署规模，避免过度配置。

「推论已成为 AI 的主要工作负载,基础设施也必须反映此一现实。」

「仰赖超大规模 GPU 丛集执行超大型 LLM 的时代已经结束。HyperThought 让 AI 从仅属于云端巨擘的复杂工程，转变为每一家企业皆可拥有的单卡级简洁方案。」

—— William Wei,Skymizer 行销长

消除企业 AI 的隐藏税负

其结果是：企业在享有数据隐私、低延迟与完整营运掌控权的同时，亦可摆脱 GPU 丛集所带来的基础设施负担。

地端推论亦消除了「按 token 计费」所带来的支出焦虑——此焦虑已成为企业导入 AI 的无形税负。云端推论迫使团队必须精打细算每笔查询，并限缩 Agent 的使用。HyperThought 则彻底解除此限制：一旦部署完成，企业便可在固定的基础设施成本下，执行无上限的推论。

HyperThought 为企业既有的 GPU 基础设施提供互补，而非取代。透过将解码(decode)密集的推论工作自 GPU 卸载，企业可提升整体丛集的利用率与电力效率。

驱动企业跨领域的 Agentic AI 工作流程

HyperThought 与 HTX301 专为 agentic AI 工作负载而设计，此类工作负载正快速成为企业自动化的核心基石。搭配 OpenClaw 等 agent harness 框架，HTX301 能提供这些系统所需的推论吞吐量，并同时具备完整的数据自主权与可预期的延迟表现。

此一架构可驱动跨产业与跨领域的 agentic 工作流程与自动化，包括:

金融服务(法遵、诈欺侦测、投资组合推理)；医疗与生命科学(临床决策辅助、药物交互作用分析)；制造业(预测性维护、品质检测)；法律与专业服务(合约审阅、机密知识检索)；政府与国防(主权 AI、机密分析)；零售(客服自动化、库存推理)；软件工程(私有 code copilot、自主 CI/CD)；以及 半导体与 IC 设计(地端 RTL copilot、验证 agent、针对自有 IP 的设计知识检索)。

焦点应用：地端 AI Coding。AI 辅助编码已成为现代软件团队的基本配备，且在「原始码即公司命脉」的领域中，需求增长最为快速。IC 设计公司无法将自有 RTL 上传至云端编码助手，否则将面临价值数十亿美元矽智财外泄的风险；软件公司在面对机密程序码与客户数据时，亦有相同的考量。HTX301 能提供足以支撑完全地端执行私有 code copilot、RTL 生成器与验证 agent 的吞吐量——既消除云端外泄风险，又完整保留 AI 辅助工程所带来的生产力效益。

除了 agentic 工作负载之外，单颗 HTX301 芯片亦支持装置端推论——涵盖语音转写、翻译、视觉理解与多模态 AI——适用于边缘服务器、AI 工作站、智能 NAS 系统及各类智能端点。

由 LISA™ 与 HyperThought™ 驱动

HyperThought 由 LISA™(Language Instruction Set Architecture，语言指令集架构) 所驱动，此为 Skymizer 自主研发、专为 Transformer 推论最佳化的语言中心指令集架构。LISA 在效能、功耗效率与扩展性方面,全面支持自边缘装置至企业丛集的各类部署。

地端部署的 HTX301 界面卡，与 HyperThought 装置端 LPU 共享相同的 LISA 架构基础——一套 ISA、一套部署流程，自边缘至数据中心，一以贯之。

Prefill/Decode 分离:HyperThought P/D 策略

LLM 推论包含两个本质上截然不同的阶段：prefill(处理输入提示，属 compute-bound)与 decode(逐一生成 token，属 memory-bandwidth-bound)。以 GPU 为核心的基础设施强迫两者共享同一块矽芯片，在任一时刻总会造成运算资源或带宽资源的闲置。HyperThought 自架构设计之初，即将此两阶段加以分离。

硬件堆叠——Decode 优先的专属矽芯片。HTX301 为 decode 阶段量身打造——此阶段是主导真实世界推论延迟、对存储器带宽极度敏感的 token 生成过程。既有 GPU 处理 compute 密集的 prefill；HTX301 界面卡则负责 decode。每一块矽芯片皆对应其最适合的阶段。

软件堆叠——统一的 P/D 调度。Skymizer 的统一软件堆叠——涵盖 KV-cache 管理员、具阶段感知能力的排程器，以及动态配置引擎——可协同调度 prefill 与 decode 资源池，于节点之间传递 KV-cache 状态，并随工作负载变动实时重新平衡 P:D 比例。

「专为 decode 打造的硬件，搭配能协调每一份推论工作负载的智能软件堆叠——这才是在规模化场景下分离 P/D 的真正做法。」

—— Luba Tang, Skymizer 技术长

定义 AI 部署的下一个时代

随着模型规模自数十亿参数迈向万亿级参数,业界对暴力式 GPU 扩展的依赖正面临瓶颈。Skymizer 的存在，正是为了超越此一瓶颈——结合深厚的编译器专业与针对 decode 最佳化的矽芯片，定义 AI 基础设施的下一个时代。

有关 HyperThought 延伸平台的完整蓝图，将于 Skymizer 在 COMPUTEX 2026 的记者会中公布。

申请 HTX301 早期存取权: skymizer.ai/press

关于 Skymizer Taiwan Inc.

Skymizer （台湾发展软件科技股份有限公司）成立于 2013 年，是一家专注于 AI 推论的公司。其旗舰平台 HyperThought 结合编译器驱动的软件堆叠与针对 Transformer 最佳化的硬件，可于装置端、边缘端与地端部署环境中，提供高效能的推论服务。

Skymizer Taiwan Inc. 发表突破性架构 单卡实现超大型 LLM 推论

Skymizer Taiwan Inc. 发表突破性架构单卡实现超大型 LLM 推论