数据中心的智能化管理与能源效率 智能应用 影音
Microchip Q1
Event

数据中心的智能化管理与能源效率

  • DIGITIMES企划

宏正自动科技产品经理黄世强。
宏正自动科技产品经理黄世强。

由于许多科技应用如物联网,已从概念阶段走向实际应用,愈来愈多的企业投入公有云与私有云的建置,也因此驱动着大型及超大型机房的筹备与兴建,宏正自动科技产品经理黄世强指出,包括配电、用电、空调制冷的选择、集中管理及控制等,都已是现代数据中心不可或缺的管理重点,如何破除绿色机房的迷思与挑战,更是IT人员必须了解的重要趋势。

黄世强指出,据资策会的数据,全世界的服务器在2015年的出货量约有900万台,年成长率约为5.9%。另根据TechNavio's analysts指出,预计从2013年到2018年,年复合成长率(CAGR)更将高达10.60%,由此可见数据中心的发展程度。

而从数据中心角度看客户需求,各家厂商也是在逐步转型。从普遍的X86传统系统,开始导入预整合系统到整柜输出,原来一个机柜仅放6?8台服务器,现在已逐渐成长用到将近80%的机柜空间; 同时也带来更高密度的电力需求。此外,虚拟机器、模块化UPS、动态制冷及容易扩充的需求,以及收集用电信息、机房环境温湿度,并提供管理者可视化管理界面,都是数据中心管理必须要考量的重点。

黄世强指出,机房用电的范围,如处理器、服务器、储存装置及交换机等IT设备,大约占52%,空调制冷大约占38%,UPS、PDU等设备则是占用电量10%。以服务器的电力配送路径为例,从中压变电站送电进来,经隔离变压器降压至480/277V的三相电,再经过UPS、精密配电柜之后,将208V/单相电配进每一个机柜,整个配送过程会经过4次转换,两次隔离变压器转换,开关/断路器也有10个左右。每一次的电力转换与配电距离的长短,都会影响能源损耗。

为了降低机房用电的能耗,英特尔(Intel)在2009年提出一种直流供电系统架构,让电力转换只剩下两次,一次隔离变压器转换,开关/断路器也可以降到5个左右,这其实就是Facebook主导的OCP(Open Compute Project;硬件版的Open Source)的前身,目前也已经有一些数据中心开始导入,可大幅改善能源损耗的状况(降低38%能源损耗与24%建置成本)。

黄世强指出,自从2008/09年开始,实体服务器的建置费用就开始趋于平缓,多数服务器的运作只用了其总负载容量的5%到15%,单一服务器只需要处理/执行单一服务,而现在一台高端服务器可以透过虚拟机器,作成4?6台虚拟机。VMWare甚至宣称可让服务器硬件利用率提高到80%,进而降低硬件和营运成本达50%,减少能源成本达80%。

事实上,数据中心能否持续运作,不能只看初期的投资成本,而是要看长期运转成本,以台湾地区用电需求达100kW的机房为例,年运转电费支出约新台币460万,如果是北美地区的机房,长期运作的成本更是惊人。

另一个影响机房管理的重点,则是空调制冷的选择。黄世强指出,列间空调近来比较受欢迎,因为单柜可以处理的热量从15kW到20kW,而背板式热交换器(Rear Door Heat Exchanger;RDHx),单柜甚至可以处理30kW到40kW的热量,成为许多高密度的数据中心的优先选择,效果最好的则是直接接触式的空调(Direct Touch Cooling),甚至不需要冰水主机,用室温水即可达到制冷的效果。

至于机房管理方面,黄世强认为,可视化管理非常重要,首先要布设传感器, 在量测及收集数据之后,再产生报表,供管理人员分析并进行改善。或是直接利用自动化管理设备,动态调整服务器的运算时间及空调制冷以优化能源使用效率。

黄世强以ATEN rack PDU为例,指出PDU就像机柜内的探针,可以用来动态量测电压、电流、功率、功耗、功率因素,但还需要集中控管软件的计算能力,才能有效管理数量庞大的PDU与处理庞大的机房用电、机柜微环境之数据数据,进而获得动态的PUE/RCI/RTI 数据。

解析数据及产出报告,也是机房管理的重要项目。黄世强指出,透过仪表板式的数据呈现方式,与利用色彩进行的可视化管理,是ATEN能源管理软件(eco sensors)的一大特色,有助于机房管理人员了解机房目前的运行能效,快速有效的察觉及解决问题。

黄世强指出,由于担心过热,大部分机房会将空调温度调得太低,因而产生机柜冷却指数(Rack Cooling Index;RCI)RCILO过低、能源成本太高的问题;相反地,也有部分企业盲目追求低PUE值,而把温度调得太高,使得RCIHI出现状况,这是因为太重视节能,反而忽略安全,让机房停机的风险升高。

另一个机房管理需要重视的数据,则是回风温度指数(Return Temperature Index;RTI),过高或过低不是意指冷却不足,不然就是能源的浪费。黄世强指出,不论是RCI或RTI,都应该要被实时监测,才能让机房温度进移动态调整,在机房的节能与安全之间找到平衡点。

此外PUE值不一定是愈低愈好,要实际去理解这个数据背后的真实意义。例如机房存在大量只耗电不工作服务器,或是已经导入虚拟机器,且周边用电保持不变的机房,这两个看似可以拉低PUE值的动作,代表的意义却截然不同,前者是低效能的机房,后者则是高效能的机房。

另外,由因应云端运算需求而生的新建大型数据中心可以观察到,CPU/GPU核心数已不再重要,浮点运算数才是重点;两个同数量级的浮点运算需求机房, 以CPU为架构主体的机房其核心数会远大于以GPU为架构主体的机房,相对的,前者的机房运算能效是低于后者的。

至于UPS的效率也是存有迷思的,黄世强指出,如果UPS于高效模式(Eco mode)下运行,虽然有节能效果却是取巧的做法。由于处在bypass mode的操作状态下,服务器等于是直接暴露在市电常见的突波?浪涌与电压畸变的风险中,因此正规的作法应该是采行计划性驱动,或是采用模块化UPS,都能同时符合节能及安全的机房用电需求。