藉由系统性设计循序打造智能机房 智能应用 影音
ADI
ST Microsite

藉由系统性设计循序打造智能机房

  • DIGITIMES企划

很清楚的,现在论及机房管理,绝对不能仅仅看待IT设备管理,甚至不能只谈IT设备与机房设施的整合,而最好能将建筑设计作为起始点,由此展开系统设计,才是足以确保孕育智能机房之道。

四年前,一座隶属于TANet学术网络的信息机房,原本能源使用效率(Power Usage Effectiveness;PUE)高达2.63,绝不能算是理想水准,结果参与改造专案的承包技师,藉由机电系统架构的强化,乃至于参酌TIA-942 Tier II标准加入节能设计,使得这座原本颇为耗电的机房,顺利脱胎换骨。

日昇电机技师事务所主持人朱国权(左)、广知工程科技总经理吴沧荣等二人,曾联手参与台湾固网IDC机房设计等多项颇具指标性的专案。

日昇电机技师事务所主持人朱国权(左)、广知工程科技总经理吴沧荣等二人,曾联手参与台湾固网IDC机房设计等多项颇具指标性的专案。

经由这番改造,该信息机房PUE骤降至1.6~1.8水准,相当于一年可以省下新台币120万元电费,同样一年可减少的二氧化碳排放量,足足等于一座大安森林公园一年的吸碳量,堪称成效卓着;正因如此,该座机日后成为其他学校或学术研究机构的参考典范。

此一成功案例,蕴含了相当重大的意义。综观台湾的信息机房建设,以往鲜少参考国际标准规范,要嘛以土法炼钢方式进行,要嘛即是概括接受建筑师事务所、技师事务所、信息系统供应商或系统整合商的单方面建议设计,久而久之,单就节能效率一事来看,往往沦于不及格水准;由此观之,尔后若欲扭转这个不利现象,不论是新建机房或旧机房改建,应当采取有别于以往的设计思维。

接轨国际标准 优化机房设计
参与上述TANet机房改善专案的日昇电机技师事务所主持人朱国权,与广知工程科技的总经理吴沧荣,一是专业的电机技师,另一是专业的冷冻空调技师,二人屡屡率领各自的技师团队,参与大大小小的机房设计专案。

二人联手执行的个案中,最引人津津乐道者,无疑就是台湾固网IDC机房设计专案,因为这座位在内湖区民权东路六段与瑞湖街交叉口的机房,在2012年三月期间,即由国际机房管理最具权威的机构-Uptime Institute,颁奖Tier III认证,堪称全台首例,此一案例不啻是云端机房的典范,意谓其可对企业用户做出十足承诺,保证能够绝不中断的优质云端服务。

难免有人纳闷,一般企业的信息机房,并不像电信公司,需要对外提供服务,其层次与规格颇有落差,难道也需要大费周章挑战Uptime Institute认证,来证明自己的IT服务够水准?对此朱国权表示,有无取得证书,倒还在其次,重点在于依循标准而来的方法论,绝对有助于提升机房设计品质,就像TANet机房,即便未以通过认证为目的,但参酌了TIA-942标准,仍然产生显着效益,就是最好的例子。

「我们开始意识到国际标准的重要性,时间点可回溯到2005年,」吴沧荣回顾当时参与南港软件园区第二期的机房设计案,即在遍寻技术平衡调整暨性能验证方法的过程中,深刻感受到,某种程度上,机房设计就如同汽车组装制造的生产线,绝不是把各项元件兜好,就能立即让车辆出厂上路,必须经过严谨的验证程序,确认其已达到最佳的运转状态才行,综观机房设计的各项环节,不管机电、空调、消防、安全乃至于环控,通通都应该如此。

最大的刺激点,无疑就在南港软件园区机房的发包单位,提示了一份经由一期专案所累积的数据记录,这些数据系由海外顾问撰写而成,薄薄的一本,却让使用单位付出了昂贵的代价,此后进入第二期工程阶段,实在难以承担如此沈重的财务负担,于是找来吴沧荣等本土技师,希望能参照上期海外顾问的做法来进行设计。吴沧荣惊觉,原来国际间讲求的设计理念,竟然严谨细腻到如此程度,值得台湾借镜与效法之处,实在相当多,于是与朱国权共同激荡出一个念头,得赶紧遍寻各个国际标准,找出值得遵循的验证方法论,并将此精髓引进并扩散,一来有助于带动台湾机房设计品质的提升,二来也让有心打造优质机房的用户,无须忍痛以昂贵费用向海外顾问取经。

当年适逢TIA-942标准出炉,因此来自于Uptime Institute机构的Tier认证(Tier Certification)制度,就成为朱、吴二人的努力方向,朱国权甚至赴美接受ATD 课程训练,成为全球第17位获得认证的ATD 国际Tier设计师;且正好当时二人各自担任电机、冷冻空调等技师公会的理事长,具有一定的高度,可以向工程业界宣导国际标准认证的理念,他们就这麽做起了电机技师公会的传教士。

机房全天候运转 务求具备可维护性
「推广国际标准的重要性,在于两大重点,其一,是所有工程设计,都应该要历经调校与测试,并需要确保最终执行成果,与原始设计维持一致,凡此种种,皆有必要透过一套实务验证程序加以确认,」朱国权接着说,其次,信息机房是24小时全天候运转,与办公室环境可谓大相迳庭,一般办公室内若有任何设备异常,大可将之关机进行维修,但机房则不允许,所以必须具备十足的可维护性,才能避免任何关键服务因停机而导致中断、为企业带来巨额损失。

只不过,纵使TIA-942标准立意甚佳,但朱、吴二人在推广过程中,确实遭遇莫大反弹,只因国际标准对于施工品质要求严谨,倘若按表操课,肯定会徒增工程成本,从而侵蚀技师团队的利润空间,而用户所需投资的金额过大,明显不具卖点,但两人并不因此而退却。

朱国权指出,以一座符合Tier III认证等级的机柜,假使是5kW规格,要价往往超过100万新台币,如果不考虑这层认证因素,或许只需付出30万~40万、甚至砍价到10万以下,就有可能购得同样支持5kW规格的普通机房,只是未来何时会出状况,并没有任何把握。

但倘若技师、甚至是用户,始终因为计较初始建置成本的高低,因而影响到施工品质,吴沧荣期期以为不可,只因有可能形成因小失大的悲剧。他引述一份来自海外的统计报告,一般来说,机房的生命周期平均为30年,在这段漫漫长路里,初期建设成本不过占了10%,翻修与汰换成本则占20%,另外的70%大饼,则是来自于运转与维护,所以后面的这块,才是最值得着力的一环,假使方法正确,让运转与维护成本省下20~30%、甚至超过40%,都是很有可能的事,比起针对一开始的10%成本锱铢必较,孰轻孰重,答案显而易见。

一座座孤岛 相互整合串联
所谓Tier认证,其实可分为两个阶段,第一阶段是设计验证,举凡环境控制、通讯、网络、电力、空调、消防、安全、接地、避雷…等等,所有可能出现机房环境的控制需求,通通都得盖在内;至于第二阶段则是施工验证,Uptime Institute机构会指派人员到场驻足一周,进行严苛的Site Survey,检验其施工结果是否符合当初设计,不仅如此,甚至连标准作业程序SOP、紧急作业程序EOP、维运作业程序MOP,样样都不容或缺。

吴沧荣认为,这对于台湾惯常采取的测试暨验收程序,已造成莫大的颠覆效果,主因在于,以往论及环控、教育训练等后段维护事宜,总是被摆在施工完成后才进行,无须接受测试暨验收的考验、磨难,甚至慢慢做都可以,如今一下子拉到前面,需要与专案同步进行,冲击自然不小;但可以肯定,藉由游戏规则的调整,连带会促使空调、电力等系统之间的界面,都能顺利与环控机制整合。

也就是说,不管是各项机房基础设施之间,抑或机房基础设施与IT设备之间,全都会被串联在一起,而非如同过去机电技师只管机电、空调技师只管空调,IT设备厂商也仅以自家产品为念,一味要求栖身在低温环境,确保不会因过热而出现当机,过去各个孤岛之间鲜少有连结,如今伴随智能机房的国际趋势使然,彼此都已高度连结。

在此前提下,朱国权也建议业主,在机房最初始的设计阶段,不管是外部的设计、施工单位,乃至于内部的执行、维运团队,都应该齐聚一堂、同时作业,不宜任由这些单位或团队各自为政。

顺应国际情势 而非业主自决
表面上看来,Tier认证是业主或用户本身的自发性作业,可以为了凸显其服务的优质性,因而积极投入,也可能碍于节省金钱、节省人力、节省时间、避免麻烦…等各式理由或藉口,选择继续走传统老路,但现实世界里,情况未必是如此。

据悉,大陆为避免因机房运作效率不彰,导致冲击公共服务品质,因此早已透过十二五计划,针对信息机房多所规范,虽然站在当地政府立场,不可能强制要求各级公民营单位,都需要接受美国主导的Tier认证,但毕竟TIA-942标准有其独特性与指标性,影响所及,大陆通过Tier认证的机房数量,开始逐步增多。

大陆如此,诸如韩国、马来西亚、印度…等其他亚洲国家,投入Tier认证的速度都已加快;由此可见,TIA-942标准俨然成为国际潮流,如同台湾固网,也是为了争取海外企业进驻,才如此大费周章导入Tier认证,换句话说,这股趋势不完全取决于业主自决,甚至已成为证明IT服务健全与否的重要指标。

暂且跳脱信息机房,观察晶圆厂这个同样讲求品质与强度的场域,它们多是在民国80~90年期间建置,当时还未出现Tier认证观念,所以只能按照自认为严谨的方式进行建造,虽然最终都能展现极高的稳定度,但每年总得停机3~4天进行岁修,每一天的损失,其实都高达好几十亿元,如果取决于诉诸「基础设施同时可维修」的Tier III等级,或许哪一天,晶圆厂根本不必为了岁修而停机数日。

奠基于ITIL 激发智能性整合功能
朱国权认为,DCIM所诉求的环控、IT管理整合,无疑是一个划时代的进步,唯有如此,才能将业主以往碍难横向串联的资产管理、设施管理、维运管理、网安管理…等种种环节,得以全面统整到一致性的管理平台。

事实上,DCIM智能性整合功能的个中精髓,其实正是立基在ITIL架构之上。朱国权与吴沧荣两位技师,为了顺应这股整合潮流,所以在数年前相继争取到ITIL、PMP认证,只因这两项证照都出自IT业界的语言,唯有予以了解并熟悉,才有助于缩短其与IT管理象限之间的差距。

另值得一提的,以往不少企业机房的建立过程,都是由国际级信息大厂进行主导,技师参与的机率甚低,但近几年则情况丕变,信息大厂也敞开心胸,邀请专业技师与之并肩作战,这个时候,技师愈能理解信息大厂讲述的语言,就愈能雀屏中选,成为大厂夥伴,争取到更多专案建置机会。

BOX:认识TIA-942的四大等级
本文:
现已普遍用于评量机房通信基础设施的TIA-942标准,主要是按照数据中心基础设施的可用性、稳定性及安全性,进而划分为Tier I、Tier II、Tier III与Tier IV等四个等级,而这四个等级的划分,主要取材自美国Uptime Institute所制定的场地基础设施性能标准,及相关分类等级的体系框架。

下列兹就TIA-942项下四个等级,逐一进行深入介绍:
一、Tier I:基本数据中心
列于此等级的数据中心(机房),对于有计划或无计划的营运中断反应最为敏感,相对来说,所受影响程度也最大)。这类机房都配置了电脑电力分配及冷却,但不强制拥有高架地板,另需要有一台UPS或一台发电机。而这些系统的关键负荷,可达到N的100%。基于预防性检修的需求,一年度内场地内基础设施需要被完全停运作;此外,Tier I机房仅具备由电力及冷却分配的一条单向管路,并无多余的组成部分,因此仅可提供99.671%可用度。

二、Tier II:基础设施部分备援
此等级的数据中心采用的设备,具有部分备援的水准,因此比起Tier I机房,对于有计划或无计划的营运中断反应相对较低,其内部已有高架地板,也有一台UPS及发电机,而动力设计为N+1,拥有一条单一的分配线路,关键负荷可达到N的100%。因应其关键线路的维修,以及场地内其他基础设施的维修维护,需有一次处理性的关闭中断;Tier II系由电力与冷却分配的一条单向代理组成,但夹带多余的备援组成部分,故可提供99.749%可用度。

三、Tier III:基础设施同时可维修
此等级的数据中心,具有能够进行任何有计划的场地基础设施活动,而又不致因为电脑系统运行状况而中断之能力,所谓有计划的活动,包括预防性及程序性的维修、修理,抑或汰换零组件,增添或调整组件的容量,以及执行组件与系统的测试。在于空调系统部分有两套独立管路,当其中一条管路进行维修或测试的同时,另一条管线也能保持运转不中断。在系统上的关键负荷不超过N的90%,而当企业期望获得正常而合理的额外保护时,Tier III场地将被有计划地设计成为「可升级至等级Tier IV」,其系由多条有效的电力和冷却分配道路所组成,然其中只有一条代理执行运转,另外多余的组成部分,则在运转的同时进行维修,足以提供99.982%的可用度。

四、Tier IV:基础设施故障容错
这个等级的数据中心,具有能进行任何有计划的维修活动,且不会对关键负荷造成中断的能力,在此同时,也可提供基础设施足额的电力与空调容量,在此前提下,任何无计划性的故障,都不会影响其关键负载,其需要同时执行的电路分配,通常为S+S的双电源系统组态,每套电力系统都有N+1备援的两个独立UPS。在一个系统上的关键负载不会超过N的90%,而全部硬件设备都需要有故障容错之双电源输入。在严格的故障容错机制下,Tier IV拥有维持无计划故障或运行错误时,不致产生电脑机房运作中断的能力,其系由多条有效的电力与冷却分配道路组成,有多余的备援组成,而且是故障容错,所以能提供高达99.995%的可用度。

Box:业主只要有心 改造机房为时不晚

绿色机房的主轴,不外乎两点,一是节能(PUE),另一则是可靠度(Tier),意欲实现这两大目标,最好的方式,即是从机房建造之初始,就开始做系统性设计;然不可讳言,既有机房的数量,远远超过新建机房,岂不意谓这些旧机房,只能忍痛与节能可靠保持距离络?

日昇电机技师事务所的朱国权强调,情况并非如此,业主只要有心接受改造,绝对还有调整的空间。广知工程科技总经理吴沧荣举了一例,十多年前,他曾在花莲承接一桩机房改造案,当时该机房很奇特,不管空调吨数怎麽加,里头温度就是降不下来。

后来更离谱的是,以该机房不算大的面积,即使空调负载经追加到让人咋舌的1,200吨,过热现象仍然挥之不去,甚至热到连机板都烧掉,迫使业主只好找冷冻空调技师共商解决之道。

吴沧荣一到场,并不是赶忙帮业主计算还需追加多少空调负载,因为先前听业主吐过几次苦水,他心中已大致有谱,可以肯定其原因绝非是空调吨数不足,而是热冷混风情况太严重,假使不对症下药,一切的努力终将成为虚工,因此他借助计算流体力学(Computational Fluid Dynamics;CFD)软件,把原本不对的气流流场,调整到正常状态,很快就化解这场灾难。

值得一提的,这座位在花莲的机房,后来将空调负载从1,200吨急降至30吨,结果内部温度还比从前低,机房改造的价值,至此已经表露无遗。

十年过去了,许多机房业主面临的窘境,却没有太大的不同,有些时候,甚至只要将服务器摆放位置,做180度翻转,散热冷率就会截然不同,但不少业主从未意识到问题症结,甚至还因为服务器转换角度需要停机,生怕影响IT服务的运行,惹来使用者抱怨,所以最终宁可选择抗拒改变,这也说明了,许多业主或管理人员亟待学习、成长的空间,其实还相当之大。

如今随着云端化、虚拟化的盛行,恐将迫使业主「不想改都不行」!朱国权解释,早期Thermal控制走的是固定模式,各项参数都可以算得很精准,但现在机柜的负载情况随时变动,使得固定式设计逻辑不再适用,必须转变成为「可调式」,首当其冲需要调整的,无疑正是空调,因为机柜负载一变,产出热空气就不同,影响所及,举凡送风量、送风温度、风扇转速,一直到后头的水泵、冷却水塔,通通得跟着变,空调如此,UPS也不例外,也得随时升载或降载,也难怪变频式空调系统、模块式UPS大行其道,值此时刻,机房设计思维岂能一成不变?

附档:Uptime Institute.jpg