永续设计、施工与维运 淬链50年不坠的机房
回顾2016年,IDC业界出现一桩血淋淋的案例。位在美国的网站代管业者Peak Hosting,长期以来有高达八成的营收,系由游戏公司Machine Zone所贡献;按理说,面对这般大客户,Peak Hosting理当悉心照顾,然而却不然,在当年期间共计出现3次当机,分别造成39分钟、2小时、9小时的服务中断,一次比一次还严重。
前述当机事件,连带导致Machine Zone的游戏服务停摆,对于营收及商誉的冲击可谓不小,在忍无可忍下决定实地访视Peak Hosting机房,赫然发现号称是专业IDC的机房内,竟充斥着散乱的纸箱,与盘根错节的光纤线缆,意谓对方根本没有遵循标准作业程序(SOP)、维修作业程序(MOP)、紧急作业程序(EOP),于是正式提出钜额求偿;最终Peak Hosting营运无以为继,黯然宣告破产。
落实O&M Ready,确保数据中心永续营运
这个惨痛的案例,足堪成为xSP业者、电信公司,甚至是一般企业值得借镜的教材。在正常前提下,服务供应商或企业建构数据中心的过程中,即需针对设计、施工、维运建立完整逻辑,意指在开张营运之前,SOP、MOP与EOP就应全数到位,每一道程序执行都需要历经严格的演练且确认无误,才足以达到永续营运之目标。
日昇意定科技顾问公司总经理朱国权,也对于Peak Hosting案例深有感触,于是开始提倡「O&M Ready」(Operations and Maintenance)概念。所谓O&M Ready,意指机房与系统的设计、施工、维运,都必须有完整明确的方法论,且后续实际的执行轨迹,每一步都必须按照方法论来走,不能有所偏离;更直白来说,有了O&M Ready,代表机房开幕的第一天,所有的管理制度、维运制度、基础设施皆已完整到位,且通过VMP(确效验证)、MMP(维运验证)、TVRA(安全威胁和漏洞风险评估)等多道验证关卡。
然而综观现实情况,多数的机房设计、施工单位,在执行业务时,并未将基于日后维运所需要的Know-how加以整合,如此一来,就难以达到永续维运(Operational Sustainability)的愿景,难保不会发生诸如Peak Hosting的悲剧。
上述的VMP、MMP与TVRA,都如同最后的考试,只要考过了,就代表这座机房符合永续维运标准,任何人来执行维运任务,都可以迅速确认地达成使命,且不管是业主或维运单位,皆深具信心;这也就是欧美提倡的「Design for Operational Sustainability」(永续性的维运设计理念加上全生命周期的功能验证体系)原则。
持平而论,对于业主而言,兴建机房绝对是一笔昂贵的投资,若仍秉持20、30年前的旧思维来便宜行事,疏于融入永续维运元素,委实太过可惜。
以BIM当基础,作为信息传递媒介
论及机房设计,首要之务,设计者必须懂得业主所期望的不中断维运需求,究竟落在哪一个水平,例如一年的SLA(Service Level Agreement)须达到几个9,先厘清这些需求目标后,才能据此定义架构。但若以整个生命周期角度来看,现今相对不甚到位的环节,并不在设计,而是在施工与维运,其中施工阶段涉及的细节最多、复杂性最高,称得上是O&M Ready概念下,最明显的断层。
为弭平沈积已久的断层,确保施工、维运等相关单位都跟上O&M Ready目标,在每件建房建设专案的进程中,监造单位有必要确实启动专案启动会议(Kick-off Meeting)、教育训练,并邀集施工承包商、业主与会,其间以BIM(Building information Modeling)管理平台为基础,作为整个工程放样、竣工、永续维运等信息的传递媒介,将标示计划、通用性命名原则、布线清单等等各种细节,全都严谨讲过一遍,并要求每一条线缆皆须有完整编码与标示。
前述的细节如同基本功,尽管修练过程难免痛苦挣扎,但从信息机房的全生命周期规划设计施工、乃至永续维运等观点来看,这些功夫都极其重要。以线缆的编码及标示为例,只要有明确实施计划、并且按部就班切实执行,日后维运人员即使并未携带当初的设计图,看了编码,就知道应当怎麽正确地进行维修及维护。
不仅是线缆,甚至连地板也需要有明确标示,因为机柜编号与此息息相关,只要根据地板编号,就很容易探知各编号机柜的XYZ座标,有了这些座标信息,才能顺利推动结构化布线。
另一种情境,亦需借重地板编号。假使机房出现漏水,维护人员只要借助环控系统,便能快速得知应当开启带有哪两个编号的高架地板,进而准确地关闭特定阀件、开启漏水头,快速解决问题,而非像无头苍蝇般无助乱窜。
其余应留意的细节还相当多,但可惜鲜少获得正视;举个简单例子,例如每座设备都应搭配一定的维修空间,听来极其合理,可惜历来大大小小的机房设计案,却经常忽略这个基本要求。此外更重要的,前述的SOP、MOP与EOP,不仅一个都不能少,同时需要搭配严格的演练、不容敷衍懈怠,而对应的环控管理、文件管理等辅助系统,亦应一并到位,唯有确实做好每一步骤,才能将机房的潜在风险降至最低,让客户真正安心进驻。
严格控制细节,打造典范机房
台湾多数机房都是在2000年前后落成启用,当时的设计、施工与维运原则,是基于1990年代的标准,如果今天依然套用旧准则,代表落后正常标准长达20~30年。众所皆知,现今各行各业的信息用量远远超过2000年时期,系统架构也已出现极大变化,因此现在要兴建机房,显然不宜沿袭旧标准,应该着眼于未来的2030年、2040年甚至2050年的需求,打造足以永续维运的现代化机房,此即为朱国权倡导O&M Ready的初衷。
令人欣慰的,近年有愈来愈多的业主,都已具备一定的风险意识,也都认同Design for Operational Sustainability观念,面对设计计划书里头的每个字、每张图,都要求逐字导读与确认,对于每一个细节,也都估算得相当精准,无疑是一大进步。但尽管如此,负责监造的单位,有必要比业主还要更加严格,譬如针对设备进场管制、资产管制等等业主较未顾虑的环节,便需要祭出严苛规范,只因为唯有坚持到底,才能真正打造出可长可久的典范机房。
值得一提的,为落实O&M Ready信念,日昇意定在参与个案的过程,皆以「LiBCx全生命周期功能验证架构」为基础,借此建立专案管理平台、BIM PxP(Project Execution Plan)执行计划,接着订定预施工管理流程、BIM PxP预施工管理计划,并执行整体预施工碰撞协调检核高程、检视是否有共同维护性;自此之后,举凡施工营建阶段所用的标准化管理,营运阶段所用的视觉化维运管理系统(VMMS),全都构筑在BIM建筑信息模型这个基础平台之上,而为了确认BIM设计与执行之精准无误,日昇意定也特别引进360度全扫描仪、3D全站仪等辅助工具。
事实上,除了新建机房外,即使是旧机房改善,也都适用O&M Ready原则;唯有坚持永续维运设计理念,方可避免起步走错、永世不得翻身,真正打造未来50年荣景。
日昇意定科技顾问公司总经理朱国权,将于4/17举办的「企业机房论坛--与业务共同成长的信息蜂巢」担任讲师,发表「Data Center维运管理实务」,活动完全免费,欢迎机房网管人报名2018年最具规模的Data Center盛会!