Skymizer Taiwan Inc. 发表突破性架构 单卡实现超大型 LLM 推论
提供业界领先的效能功耗比,单张 PCIe 界面卡即可执行 700B 参数模型——无需 GPU 丛集,亦无须密集散热
于 COMPUTEX 2026 展前,AI 推论解决方案先驱 Skymizer Taiwan Inc.( 台湾发展软件科技股份有限公司)今日预先揭露其在地端 AI 部署的重大突破——HTX301 推论芯片,内建于 COMPUTEX 2025 首次发表的软硬件协同设计平台 HyperThought™。HTX301 为 HyperThought IP 的首款参考芯片,该 IP 为 AI 推论定义了长期的架构愿景。此首版矽芯片在大幅简化超大型模型推论所需基础设施的同时,亦带来卓越的效能功耗比。
打破 GPU 对超大型模型推论的垄断
一直以来,在地端部署超大型模型皆需仰赖庞大的 GPU 丛集、NVLink/NVSwitch 等高速互连技术,以及密集的散热系统——导致成本高昂且维运复杂。
Skymizer 于业界首次将此愿景化为可能。
仅需一张 PCIe 界面卡——搭载 六颗 HTX301 芯片与 384 GB 存储器——企业即可于本地执行 700B 参数模型推论,每卡功耗仅约 240W。
HyperThought 针对 不同尺寸与形式的弹性扩展 而设计——可封装为 SoC 或界面卡,自 边缘到迷你数据中心 皆可部署。单卡可由 1 颗芯片扩展至 6 颗芯片,存储器容量介于 32 GB 至 384 GB,支持 4B 至 700B 参数 的模型——让企业依实际工作负载需求,精准规划部署规模,避免过度配置。
「推论已成为 AI 的主要工作负载,基础设施也必须反映此一现实。」
「仰赖超大规模 GPU 丛集执行超大型 LLM 的时代已经结束。HyperThought 让 AI 从仅属于云端巨擘的复杂工程,转变为每一家企业皆可拥有的单卡级简洁方案。」
—— William Wei,Skymizer 行销长
消除企业 AI 的隐藏税负
其结果是:企业在享有数据隐私、低延迟与完整营运掌控权的同时,亦可摆脱 GPU 丛集所带来的基础设施负担。
地端推论亦消除了「按 token 计费」所带来的支出焦虑——此焦虑已成为企业导入 AI 的无形税负。云端推论迫使团队必须精打细算每笔查询,并限缩 Agent 的使用。HyperThought 则彻底解除此限制:一旦部署完成,企业便可在固定的基础设施成本下,执行无上限的推论。
HyperThought 为企业既有的 GPU 基础设施提供互补,而非取代。透过将解码(decode)密集的推论工作自 GPU 卸载,企业可提升整体丛集的利用率与电力效率。
驱动企业跨领域的 Agentic AI 工作流程
HyperThought 与 HTX301 专为 agentic AI 工作负载而设计,此类工作负载正快速成为企业自动化的核心基石。搭配 OpenClaw 等 agent harness 框架,HTX301 能提供这些系统所需的推论吞吐量,并同时具备完整的数据自主权与可预期的延迟表现。
此一架构可驱动跨产业与跨领域的 agentic 工作流程与自动化,包括:
金融服务(法遵、诈欺侦测、投资组合推理);医疗与生命科学(临床决策辅助、药物交互作用分析);制造业(预测性维护、品质检测);法律与专业服务(合约审阅、机密知识检索);政府与国防(主权 AI、机密分析);零售(客服自动化、库存推理);软件工程(私有 code copilot、自主 CI/CD);以及 半导体与 IC 设计(地端 RTL copilot、验证 agent、针对自有 IP 的设计知识检索)。
焦点应用:地端 AI Coding。AI 辅助编码已成为现代软件团队的基本配备,且在「原始码即公司命脉」的领域中,需求增长最为快速。IC 设计公司无法将自有 RTL 上传至云端编码助手,否则将面临价值数十亿美元矽智财外泄的风险;软件公司在面对机密程序码与客户数据时,亦有相同的考量。HTX301 能提供足以支撑完全地端执行私有 code copilot、RTL 生成器与验证 agent 的吞吐量——既消除云端外泄风险,又完整保留 AI 辅助工程所带来的生产力效益。
除了 agentic 工作负载之外,单颗 HTX301 芯片亦支持装置端推论——涵盖语音转写、翻译、视觉理解与多模态 AI——适用于边缘服务器、AI 工作站、智能 NAS 系统及各类智能端点。
由 LISA™ 与 HyperThought™ 驱动
HyperThought 由 LISA™(Language Instruction Set Architecture,语言指令集架构) 所驱动,此为 Skymizer 自主研发、专为 Transformer 推论最佳化的语言中心指令集架构。LISA 在效能、功耗效率与扩展性方面,全面支持自边缘装置至企业丛集的各类部署。
地端部署的 HTX301 界面卡,与 HyperThought 装置端 LPU 共享相同的 LISA 架构基础——一套 ISA、一套部署流程,自边缘至数据中心,一以贯之。
Prefill/Decode 分离:HyperThought P/D 策略
LLM 推论包含两个本质上截然不同的阶段:prefill(处理输入提示,属 compute-bound)与 decode(逐一生成 token,属 memory-bandwidth-bound)。以 GPU 为核心的基础设施强迫两者共享同一块矽芯片,在任一时刻总会造成运算资源或带宽资源的闲置。HyperThought 自架构设计之初,即将此两阶段加以分离。
硬件堆叠——Decode 优先的专属矽芯片。HTX301 为 decode 阶段量身打造——此阶段是主导真实世界推论延迟、对存储器带宽极度敏感的 token 生成过程。既有 GPU 处理 compute 密集的 prefill;HTX301 界面卡则负责 decode。每一块矽芯片皆对应其最适合的阶段。
软件堆叠——统一的 P/D 调度。Skymizer 的统一软件堆叠——涵盖 KV-cache 管理员、具阶段感知能力的排程器,以及动态配置引擎——可协同调度 prefill 与 decode 资源池,于节点之间传递 KV-cache 状态,并随工作负载变动实时重新平衡 P:D 比例。
「专为 decode 打造的硬件,搭配能协调每一份推论工作负载的智能软件堆叠——这才是在规模化场景下分离 P/D 的真正做法。」
—— Luba Tang, Skymizer 技术长
定义 AI 部署的下一个时代
随着模型规模自数十亿参数迈向万亿级参数,业界对暴力式 GPU 扩展的依赖正面临瓶颈。Skymizer 的存在,正是为了超越此一瓶颈——结合深厚的编译器专业与针对 decode 最佳化的矽芯片,定义 AI 基础设施的下一个时代。
有关 HyperThought 延伸平台的完整蓝图,将于 Skymizer 在 COMPUTEX 2026 的记者会中公布。
申请 HTX301 早期存取权: skymizer.ai/press
关于 Skymizer Taiwan Inc.
Skymizer (台湾发展软件科技股份有限公司)成立于 2013 年,是一家专注于 AI 推论的公司。其旗舰平台 HyperThought 结合编译器驱动的软件堆叠与针对 Transformer 最佳化的硬件,可于装置端、边缘端与地端部署环境中,提供高效能的推论服务。


