运用基础设施管理平台 掌握数据中心动态 智能应用 影音
D Book
236
Vicor
PTC

运用基础设施管理平台 掌握数据中心动态

  • DigiTimes企划

艾默生网络能源 技术顾问 张志铭
艾默生网络能源 技术顾问 张志铭

由于机房内的基础设施组成项目众多,事件发生种类及数量繁杂,如不及时回应,往往会对公司系统及营运产生重大的影响,因此现在企业无不希望能透过数据中心基础设施管理(Data Center Infrastructure Management, DCIM)平台的协助,实时收集各项设施完整环境信息,并依据其变化及需求表现,在满足成本、容积、弹性、风险、法规、安全性和可用性等多样化条件限制下,自动进行快速调整,以便让机房运作得以保持在最佳状态。

艾默生网络能源技术顾问张志铭表示,由于基础设施故障、数据中心资源不足,近24个月内有95%的公司曾遇上非计划性停机,而一次停机平均的损失即可高达505,502美金─但这其中有80%可因为对基础设施实行有效管理而避免,由此可知DCIM对企业的重要性。

张志铭说,依照传统的作业流程方式,机房内有关空间配置/电力传输/空调设计等基础设施项目,与网络/服务器/存储设备/应用系统等信息系统项目,通常是两组彼此独立的人员在负责管理及维护。中间的信息传递,基本上是要靠人和人之间不断的往返沟通,不仅在内容上非常不精确,过程也是十分冗长。这使得当企业信息系统的需求成长时,底层支持的基础设施增速度时常无法跟上。

为了解决此一问题,过去的做法是参考其他业者资源消耗的经验,亦或是根据其自身负载尖锋时的资源用量,在规划与建置新的基础设施时,就先预留好更多资源空间/容量备用,以避免因上述原因而导致IT服务中断,让公司蒙受重大的损失。

不过这种对应方式在机房开始迈入虚拟化、云端化的时代,显然已难以再适用。由于现在机房的设备密度更高,服务用户数更多,数据处理量更庞大,事件发生次数更加频繁,IT服务中断发生时,自然对企业营运的影响冲击更大。如果再加上IT资源虚拟化之后,IT应用程序、IT网络/服务器/存储设备,以及机房电力/空调等基础架构设施不再是以往单纯一对一的关系,过去即存在的断层更加明显。

张志铭指出,当某个基础架构设施故障时,所会波及到的应用系统根本无法确定,难以做到实时反应。这使得企业必须大幅增加其机房基础设施的备用数量,以降低发生问题的机率及影响冲击的程度。对于IT预算普遍被缩减,企业越来越讲究投资效率的今天,将大量资源投注在备用的基础设施上,似乎显得相当不划算。

张志铭建议,比较好的做法是要建立由上往下的「机房生态系统」,藉由企业对应用层系统的规划及预测,决定所需要的IT网络/服务器/存储设备等硬件设备数量,再据此建构支持其运作的机房电力/空调等基础架构设施。这表示企业需要一套可支持人们执行环境信息收集、分析数据以决定基础设施、采用具体移动并加以验证,最后再回过头蒐集移动对原环境所造成影响等一连串步骤的闭环控制平台,以做为IT人员在资源有限的条件下,持续改进企业机房关键基础设施性能的作业框架。

张志铭认为,这也正是长期投入通信网络、数据中心和工业设施等专业领域的艾默生网络能源,之所以会推出其DCIM解决方案平台的主要原因。

不同于一般直接将流程、资产、报表、监控、容积规划、变动管理、存取控制等个别不同产品进行整合的方式,艾默生网络能源的DCIM解决方案平台是透过一共享的动态平台为基础,将机房内各项常见的基础设施,如电力、制冷、监控、环境、机柜、电缆、能源、空间规划与线上操作等所需之管理功能纳入其范围。

张志铭指出,如将各别产品以一对一进行整合的方式,不仅效率很低,其伴随产生的复杂架构,也容易使企业在反应速度及未来扩充性方面遇到很大的问题。而艾默生网络能源的DCIM解决方案平台由于是软硬件一同开发,收集数据点、总结流程/应用规则、找出模式、进行调整及检视结果…等步骤都可以单一整合平台上透过视觉化管理界面进行操作,使得企业机房人员真正能做到以毫秒为单位,实时处理并解决所遇到的问题。

举例来说,其DCIM解决方案平台中的Universal Management Gateway可收集与监控来自基础设施设备、服务器、环境感应器中的数据,并将其传送到后端的Trellis应用平台,而Trellis除了会将这些机房资产信息统整在单一的存储器上存放,以便让企业能够更为简易地管理IT/设施资产与资源之间的关系外,标准化的数据中心流程和资源分配追踪策略,也能够让以往疏离的IT设备与机房基础设施更紧密的协同互动,以降低资源调整及变化时的风险。

张志铭表示,追踪各虚拟机器在数据中心内实际所在位置的能力,更使得过去难以管理及规划的虚拟资源消耗状况,获得良好的管控,减少MTTR的时间。这些机制除了可协助IT人员从单一来源进行规划和管理变化,减少不必要的IT基础设施投资外,更重要是能够大幅降低机房非计划停机的风险。