建构超级电脑平行化AI演算法 实现节点自主化控制的「交响乐」制造 智能应用 影音
Wolfspeed
litepoint

建构超级电脑平行化AI演算法 实现节点自主化控制的「交响乐」制造

元智大学工业工程与管理系副教授锺云恭。
元智大学工业工程与管理系副教授锺云恭。

元智大学工业工程与管理系副教授锺云恭表示,讲到超级电脑演算法的平行化设计,就必须考量几个重点:解决间题的逻辑、演算的程序、程序与数据的分割与分段、识别物件的独立性、各独立物件的抽象化宣告、平行演算法的永续维护方式、不断改进的创造力、平行程序的除错能力、持之以恒的决心,以及与协同合作夥伴的沟通;当然,最后是还要继续不断地评估与改进。

锺云恭强调指出,在大家谈到工业4.0时,都会说到供应链,鲜少提及需求链(demand chain),但我们都知道没有市场需求数据,怎麽决定供应链?工业4.0的产生原因之一,就是要因应市场「大量定制」的不同需求变化并及时满足之。再说,IoE(Internet of Everything)究竟是偏供应端还是需求端呢?为了自IoE的数据混杂性中,监别出清澈的需求,至少有两项工具不可少:分配式需求规划(Distributed Requirement Planning;DRP),与协同式规划预测与补货(Collaborative Planning Forecasting and Replenishment;CPFR)预测机制,再藉由超级电脑平行运算,便能协同需求链上的各个据点,一起进行市场预测与补货计划。当然,执行经验所产生的数据十分重要,因为它们正是为建构智能化市场需求分析与智能化制造排程的AI演算法,所必须要有的原始测试依据之一。锺云恭又进一步地表示,任何AI演算法最终只能求得可行解,而很难找到正确最佳解,除非限制因素能被精准的控制,但这也会增加演算程序的验证与编码平行化的困难度。

再就智能工厂的SMART这个字来说,S可表示网安的Securable;M(Measurable),是指数据可评量的,数据多寡不是问题,数据有意义才是重点;A(Adaptable),可调适的,各节点的机制可自主调节适应自己的当下状况;R(Retraceable),可循迹的,各节点产生的数据可被记录、被整合与目视化分析;及T(Teachable),可教导学习的,各节点机制的动作可被教导、训练、学习与自主改进。这其中尤以网安最重要,工厂数码化信息如果不安全就不能被称之为有智能。「品质要自源头管控(Quality at Sources)」,因此工业4.0的网安问题,也必须自源头开始思考与设计。OSI七层网络架构的各型各类转接点,以及各种系统与应用的软件,都应该在DevOps的过程中,即刻就把保护设备装置与软件的安全机制考虑进去,才能达到在线实时就消灭网安犯罪的行为。

锺云恭并举出一工厂智能加工应用案例的AI演算概念,以及它在TensorFlow上的顺序编码与平行编码的逻辑差异,与如何再将之配置在智能工厂中的节点运作上。装箱化(containerization)是日后各云系与雾间之间与之内的重要互联工具之一,它的架构十分适合于前面所述之「分配式人工智能」的超级电脑平行化演算的设计,因为每个箱子或货柜要处理的事项都是独立的。若分配超级电脑中的一个GPU或TPU去执行一个箱子或货柜的各个需求,每条绪线(thread)再分工平行执行各个指令或作业,在云端平行化计算的结构上有天生的优点(Cloud Native) 。

锺云恭最后结论指出,30年前,自有超级电脑的平行化计算以来,就充满许多挑战,程序设计逻辑上的分段与复合就是其一;此外,也包括了常说的通讯协定(protocol)、硬件特定API问题,有各式各样不同的平行架构,如GPU、TPU、AMD、多核心、丛集、私有云及公有云等;又有不同编码语法的问题,特别是在执行速度快慢情况与逻辑锁死(Race condition and deadlocks)、平行除错与分析(Parallel debugging and profiling)及计算过程配置状态(Distributed state),都会有所不同,而使得超级电脑程序的可携性(portability)大减。但未来智能工厂还将会是自主的与同步的,就像协同一致的「交响乐演奏」一样,锺云恭总结指出。