接轨国际认证 有利于创建优质云端机房
DIGITIMES企划
如何设计、维护和营运一个高可用性、高效率的信息机房」已是企业赖以在激烈商战中脱颖胜出,同时亦能免于酿成意外损失的首要关键;当然,这句话套用于企业自家的信息机房,无疑至为重要,但若基于混合云、托管私云等考量,而将范围扩大至外部的云端IDC机房,不仅理应适用相同准则,甚至应以更严苛的标准加以检视。
令人惊心动魄的是,2013年初,曾发生一场「城门失火、殃及池鱼」的火警事件,导致一家承载诸多重要网络服务的IDC机房暂时失效,影响所及,举凡知名的入口网站、电子商务、连锁餐饮、交通订票等数十家业者之服务悉数停摆逾10小时,迫使上百万位最终使用者权益受损,损失难以估计。
此时不禁让人纳闷,按理说,IDC业者建构的信息机房,理当比大多数企业数据中心更为严谨、专业才是,对于任何意外事故的耐受度与应变力,也理应胜出一筹,无奈此次事件仍烧出如此不堪结局,因而开始让各界多所省思,亟欲探究个中症结为何。
有专家直指,其实是因为这起事故太受人瞩目,才引发轩然大波,否则诸如水处理不佳导致管壁腐蚀、且维修困难,管道维修不佳造成泄漏,乃至于电池端子毁损等事件,可谓层出不穷,许多业者都曾面临这般窘境。
老旧机房难进行保养 失效机率逐年攀升
为何如此?道理很简单,因为台湾多数IDC机房,都是在2000年左右建造完成,当时诸如TIA-942等国际认证标准,当时都还付诸阙如,另对于Uptime Institute Tier概念亦显陌生,因此相关业者尚无Dual Path、N+1设计概念,以致后续无法在不影响客户服务的前提下进行维修;殊不知机房基础设施在启用10?15年后,举凡UPS电容、电池端子等众多元件,都会陆续到达使用年限,此时如果再不及时进行更换,则包括设施故障、失火意外等憾事的发生机率,必然逐年提高,此乃可预见之事。
事实上,若说所有IDC业者都不具备Dual Path、N+1等设计观念,似乎也不甚公允,有不少业者,早在上述2013年初事故之前,便开始为其机房融入高可用性设计,针对诸如发电机、冰水主机等关键设施,皆务求做到N+1水平,但毕竟自我意识的抬头,仍未臻至国际标准的细腻严谨,因此仍不免出现挂一漏万的缺憾,最明显的例子,一些关键设施虽然都已具备N+1保护,但居间串联这些设施的管道、阀件,仍然停留在Single Path层次,因此就算这些设施再怎麽受到悉心呵护,一旦开关出了状况,管它是N+1、N+2甚至是N+N,通通都将被迫停机,无法幸免于难。
专家依据IEEE 493-GOLD BOOK分析,综观大大小小机房事件,有16.4%比重是由于机电设施未进行逐月保养所滋生,更让人忧心的,假使开关设备在超过24个月才被保一次养,则故障率更将飙高到77.8%之谱,不出事的机率仅剩不到四分之一;倘若企业将营业重担交付于此类IDC业者之手,后果着实不堪设想。
面对此情此景,不管是IDC业主抑或企业经营高层,能够苛责机房相关人员竟然如此漫不经心,导致机房的可用性、容量、安全或效率,通通都有问题?其实不然,只因业主对于IDC或信息机房,通常都仅有唯一要求,那便是绝对不容出错,因为只要出错就可能撼动公司营运基业。
但另一方面却又疏于做出必要投资,确保机房相关人员的本职学能得以接轨国际专业标准,只能放任他们凭藉师徒制的经验传承,或者边做边学边摸索所累积的工作心得,作为研判机房设计暨管理良窳的准则,终至将机房长治久安的命脉,维系于几分直觉、几分猜测再加上几分运气,又怎能强人所难永保不出乱子?
采纳国际标准 打造高可用机房
可喜的是,台湾有若干大型云端IDC服务供应商,已经意识他们所面临的严峻课题,其中包括了,当各项基础设施的生命周期告终,即使还有备援设备当靠山,但单一管路或电路设计不改,仍将导致机房管理者无法在不中断服务的情况下,进行设施的汰旧换新。
再者,可以预见,电力支出占整个机房运作成本的比重,未来只会更高、不会更低,若不设法运用自然冷却、最佳化气流循环控制(旨在避免冷热空气混风)或其他有效措施,将PUE能源效率降至较低水位,仅能被迫将电费成本转嫁给最终用户,使得营运竞争力趋于下滑。
此外,近年来针对云端IDC机房的网骇攻击态势,已然明显增温,不管论及攻击手法与频率,都在在让人忧心不已;在2014年6月期间,一家名为Code Spaces的程序码代管网站,遭受了黑客精心筹划的大规模分散式阻断服务(DDoS)攻击,趁势将看似不起眼、但危害性甚高的APT恶意程序掩护入境,紧接着,黑客循序掌握该公司在亚马逊AWS EC2云端运算服务控制台的存取凭证,继而提出钜额勒索。
后来只因Code Spaces不从,黑客便断然将AWS EBS快照、AWS S3的储存内容、Amazon虚拟机的镜像档逐一清除,使得Code Spaces营运基业宣告瓦解,只好忍痛做出歇业决定,但令人不胜嘘唏,原本对Code Spaces深信不疑的客户,也莫名付出了极为惨重的代价。
大型云端IDC业者愿意正面因应这些由来已久的问题,下一步的举措,即是导入国际认证。其中台湾大哥大于2013年底完工启用的内湖云端机房,便遵循Uptime Institute国际标准规范,相继通过Tier Ⅲ Design设计规划、Facility建置等两项认证,确保机房内包括电力、空调、消防、安全及环控等基础设施,全都具备可共同维护性之架构,意即无论面临计划性维护保养、抑或遭逢无预警突发事故,都可以在服务不中断的前提下进行维修,使用户权益获得十足的保障。
除了可持续性维运外,台湾大哥大亦对于能源效率PUE 1.5、强化网络安全等其他事项着墨甚深,一方面透过空调水侧自然冷却系统架构的导入,乃至于建立完善的冷热通道分离,据以推动节能设计,二方面则采取二层式防护架构-「前场防御+后场防御」,有效抗御黑客攻击,其中所谓的后场防御,主要是思考前场防御有时而穷,即采用最新防护方案,仍无法全然阻绝零日威胁,因而需要以黑客成功入侵为前提假设,一旦侦测到黑客出现譬如提权、植入后门等后场行为,旋即介入处理,针对黑客窃取数据的可能路径严加封锁。
除了台湾大哥大外,料将是全台最大规模云端IDC的中华电信板桥云端数据中心,则遵循美国电信产业协会(TIA)所颁布的TIA 942-A标准规范,进行机房设计,针对内部不同楼层,少则以Rated 3等级标准为依归,每年仅容许出现1.6小时失效,多则以Rated 4最高等级标准为圭臬,每年仅容许出现24分钟故障。
而在中华电信板桥云端IDC内的Rated 4楼层,一律采行2N备援设计,全数配置多回路路径,借此将可靠度推升到了99.995%超高水准。与此同时,中华电信亦导入ISO 50001能源管理认证,也透过自然冷却、冷热通道循环等设计,力求将PUE值压低至1.5以下。
综上所述,包括中华电信、台湾大哥大等IDC业者,致力打造与国际接轨的专业级机房,其用心相当值得肯定,亦可作为用户遴选云端IDC的量尺依据。