走过艰辛认证 完美打造永续维运机房 智能应用 影音
工研院
ADI

走过艰辛认证 完美打造永续维运机房

台湾大哥大IDC云端数据中心。
台湾大哥大IDC云端数据中心。

在2016年初,台湾大哥大IDC云端数据中心历经严格审查,通过了合格率仅5%的Uptime Institute Tier III金级维运认证,连同早先获得的Tier III设计规划、建置双认证,成为东亚唯一荣膺三大证书的新时代数据中心。

一路参与IDC云端机房孕育过程的台湾大哥大产品系统架构处处长陈绍元,对有志打造永续维运机房的企业提出建议,必须慎选认证,因为唯有高标准、才有永续维运。有的认证要求功能性验证,有的仅采用纸本Check List,单从这点来看,前后道路一则艰辛、一则平顺,企业应该不畏辛劳、认真打好永续维运根基?或舍难取易即可?在他看来,难走的路才是正解。

台湾大哥大IDC云端机房采用LED照明设备、冷热通道分离、自然节能冷却系统及高效能设备等,达到PUE 1.5的目标。

台湾大哥大IDC云端机房采用LED照明设备、冷热通道分离、自然节能冷却系统及高效能设备等,达到PUE 1.5的目标。

台湾大哥大为何选择Uptime Institute认证?陈绍元娓娓道来。回顾2000年左右.com热潮方殷,带动信息机房需求飙升,三大电信公司纷纷在此时建置IDC;因当年机房认证观念尚未普及,故台湾大哥大依照业界惯用模式,委请国际大厂根据其内部最佳实务,协助兴建IDC,尽管采取看似先进的N+1设计,但仅止于UPS或发电机等设备层面,关于盘体或阀体等管道间部份,仍为单一管径。

碍于电力或空调回路都仅一条,加上执行设备换新或维护时,需在停电状态进行,所以无可避免一定出现Downtime。一般企业还可透过先建后拆、服务迁移,用迂回方式翻新老化设备,反观IDC拥有成千上百众多客户,业主无法强制要求他们配合同步转换或搬移,只能选择被动硬撑,事先备妥备机,等着在设备失效时换置,但换置需要时间,难免让客户权益受损,连带使SLA(Service Level Agreement)下滑,所有电信公司都有苦难言。

接受国际标准淬炼,挥别机房管理老症头

阵痛之余,台湾大哥大于2011年规划新的云端机房时,决心不走老路,先列出亟需解决的两大问题点——营运稳定度及节能,再积极研究有助彻底解决老问题的国际认证标准,一旦选定标准,就从设计端开始依序遵循,避免犯下日后难以修正的结构性疏失。

针对第一项营运稳定度问题,台湾大哥大择定采用Uptime Institute Tier III标准。之所以选择Uptime系基于多项理由,首先它有近似飞航安全调查委员会的独立机制,由用户、机房管理者组成,共同深入检讨真实机房事件,提出客观、不隐匿的报告,据此持续补强规范内容;而第二点节能的部份,台湾大哥大采用冷热通道隔离及自然冷却等作法,让PUE值最低达1.5,堪称业界首座绿色云端机房。

陈绍元接着说,Uptime另有类似ISO 27001的稽核授证机制。其中设计认证采书面审查,要求设计师具有Uptime ATD专业证书,例如参与台湾大哥大云端机房设计案的日昇电机技师事务所,便符合资格要求;至于建置认证,需要在现场做功能性验证,以台湾大哥大经验而论,当时由Uptime指派两位已通过培训认证的稽核员来台,进驻现场5天,期间不只检查是否照图施工,更逐一关闭电力、空调断点,验证台湾大哥大能否真正确保电力与冷气持续运转,并在同时间执行维修,堪称严苛试炼,因此至今高达六成受测者闯关失利。唯有走过这段路程,才足以确保任何意外发生时,机房备援机制能如预先设定般正常运作。

反观Uptime Institute以外的另一种高知名度的机房标准,期初系直接引用Uptime对机房分级的定义与SOP,有规范、可惜无授证机制;尔后虽有业者打出认证旗号,但未获官方授权,且仅以Check list执行设计与建置验证,过关率逼近100%,与Uptime Tier III建置认证仅40%合格率大异其趣。陈绍元说,该公司早年曾仔细比较两个认证体系,深觉若仅通过Check list型式的查核,纵然轻松拿到证书,但万一8~10年后电子元件开始老化,无法确保不会发生电力或空调系统异常的老症头,于是决定不走这条看似舒坦的道路。

藉由精实维运,巧妙达到Zero Downtime

更重要的,一经采用Uptime标准,机房建置模式也跟着变为「模块化」。以往IDC业主总是习惯建完一整个楼层,再让用户入住,即使欠缺弹性,却不得不这麽做;只因机柜上方的高层冲突太难处理,假使想要分区建置,必须精准预留管路与位置,毫厘之差都不能有,难度太高。如今采用BIM套图,透过多次磨合已排除所有路径冲突,得以留下正确的管路、甚至连工序也安排妥当,因此业主不管选择建全部、一半或4分之1都没问题,所有厂商按时进场、照图施工即可,裨益业主形塑「接单式生产」模式,一区卖完再建下一区,创造最佳投报率。

台湾大哥大在云端机房上线1.5年后,申请挑战维运认证,经过半年期间有关SOP/EOP/MOP流程面、版本一致性、人员熟悉度等艰难考题的洗礼后过关,之所以挑战这张证书,背后有着缜密思考。陈绍元解释,Tier IV与Tier III差别,在于前者为N+N架构、后者是N+1,造价差距两倍,惟以一年无预警停机时间而论,两者依序为24分钟、1.6小时,彼此落差的原因当中75%都源自人为疏失,因此台湾大哥大期望藉由维运认证促成维运的精实,消弭人为疏失,达到Tier IV等级24分钟Downtime、甚至Zero Downtime的惊喜成果。