鉴往知来:packet(互聯網)vs. token(大语言模型)

徐宏民
2025-04-23

从信息技术演进的历程来看,过去数十年来互聯網(Internet)的核心传输单位—封包(packet),与现今AI时代的大型语言模型(LLM)生成单位—语意单元(token),在基础设施、商业模式发展上呈现出明显相似性。

透过回顾packet的发展路径,我们可以摸著石头过河,描绘出token相关技术的潜在演进轨迹,并预判其在产品形态、服务模式与产业价值链上的可能样貌。

何谓封包(packet)?封包是互聯網數據传输的最小「信息单位」。所有透过網絡传输的信息(不管是信件、语音、甚至影片串流)都被拆解为多个封包,每个封包内含传输信息等重要信息,确保數據在庞大复杂的互聯網中,正确无误地抵达目的地。

过去数十年,網絡基础设施的投资便是围绕封包品质的确保(如错误重传机制)、提升传输效率(如帶寬升级、數據压缩),以及整体系统吞吐量(throughput)的扩展而展开。正是如此,过去三十年来,我们才有日益丰富的網絡服务,如信息沟通、电子商务、社群媒体、影音娱乐等。

而在LLM中,token则成为关键「智能单位」。语言模型在处理自然语言时,将一段文字信息拆解成多个token,每个token代表不同的语意片段,经由模型运算后再组合(生成)为有意义的内容。与封包相似,token的数量和生成效率直接影响运算成本以及使用者体验。例如,过去3年AI运算基础建设投资的大幅增长,就是为了确保LLM模型的能力(token品质)以及服务品质(token生成效率),甚至近期边缘装置上token处理能力的提升,也正逐渐颠覆AI应用的场域边界,向更多元、實時且全新的场域扩张。

单看过去三十几年互聯網packet的发展,我们发现token也在走类似的进程。不管是基础建设,或是3个技术优化方向,包括「品质保障」、「效率提升」,以及整体「系统吞吐量的扩展」。

品质保障:網絡早期透过TCP/IP协定来确保封包传输的正确性,而LLM则透过scaling law加大模型、使用更多训练數據,甚至后来以思维链(Chain-of-Thought;CoT)为基础的推理技术,确保生成的token内容正确且提供高品质推理服务。

效率提升:随著帶寬提升和數據压缩等技术的成熟,封包传输成本大幅降低;同样地,token处理成本亦透过模型蒸馏(distillation)、量化(quantization,使用较少位元表示数值)、KV Cache等张量(tensor)降维压缩,或是使用更有效率的架构(如MoE)来降低运算量,甚至有机会使大模型有效地运行于终端装置。

系统吞吐量扩展:过去互聯網透过光纤技术和提升边缘设备(交换器、路由器等)大幅提升數據传输量,或是使用内容传递網絡(CDN)等技术提高封包全局效益;在LLM领域,數據中心的垂直扩充(scale-up,提高算力、存儲器等提升单一服務器效能)与水平扩充(scale-out,高速網絡连结、排程提升分散式系统效能)、或是采用云端—边缘混合架构(Cloud-Edge-Hybrid)等,实现整体系统更高的token处理吞吐量,满足未来多元且實時的应用需求。

循著过去互聯網发展的主轴,我们可以预见AI技术即将引爆的下一波变革—智能「去中心化」(普及化),低成本token开始在终端设备上运行。情境将如同2007年移動網絡兴起之际,packet进入移動設備,催生智能手機,也推动Uber、LINE等全新服务的诞生,引爆长达十数年的移動生态系蓬勃发展。

互聯網数十年来最佳化packet传输技术,带动網絡服务的快速普及,特别在移動網絡时代,我们见证大量新应用与商业模式的诞生。这段历程也为观察生成式AI提供重要参照—当前token的品质提升与单位成本下降,正如当年packet优化所引发的技术扩张与资本投入,预示著新一波智能设备与创新应用的兴起。随著token处理成本持续降低,AI有望成为如網絡般的关键基础设施,深刻重塑产业结构。近来多个开放LLM模型在效能与成本上的突破,更强化LLM商品化与大规模应用的趋势。

未来如何因应?过去的历史已经显明,在技术变革时,应以开放的态度,极力接近实际场域,理解技术应用发展方向,甚至与合作伙伴共同设计开发,参与组建生态系。更积极的作法,是投资(国际)学研单位,甚至新创团队,理解新的场域应用,以及技术演进。

鉴往知来,回顾packet的发展经验(许多企业经营层也曾亲历其境),将使我们更有效地掌握token所带来的颠覆性机遇。对信息电子产业的投资者与决策者而言,更是攸关未来竞争优势的关键课题。

每一次产业典范的转移,总会带来新的硬件、服务、企业、生态系,甚至整个产业格局的兴起与殒落。当我们已清楚AI大模型即将重塑未来十年的产业样貌,或许网际(移動)網絡曾走过的历程,正可作为产业AI战略规划的重要借镜。

现任台灣大學信息工程学系教授,曾任富智捷(MobileDrive)技术长暨副总经理,推动ADAS及智能座舱系统产品进入全球车用市场。纽约哥伦比亚大学电机博士,专精于机器学习、电脑视觉、自驾车、机器人等领域。为讯连科技研发团队创始成员,慧景科技(thingnario)共同創始人,NVIDIA AI Lab計劃主持人;曾任IBM华生研究中心客座研究员、美国微软研究院客座研究员。习惯从学术及产业界的角度检验技术发展的机会,担任多家科技公司AI策略顾问。
智能应用 影音