智能应用 影音
Reserch
Research 新二类网站广宣

云容器x数据湖 打造并蓄兼容的企业营运云架构

  • 陈毅斌台北

零接触经济加速了各界对於FinTech金融科技、新零售的应用。根据主计处数据指出,2021年6月底全台电子支付使用人数已达到1,389万人,年增 53.8%,而2020年的数据也显示,全台移动支付交易额已突破新台币4,230亿,年增132%、非实体零售产业年营收也达到3,293亿,民众的日常早已在不知不觉中的上演了「数码转型」,越趋成熟的云端服务,加上即至科技(the next tech)赋能,人类将进入更新的数码生活模式。

迎接新常态!数据驱动其实来自  数码服务互动

事实上,无论是上述的FinTech、新零售或是近来火红的行销5.0,都强调了以使用者为中心、以数据为驱动的发展基础,这也提醒各家企业,如要持续提供新的数码服务、善用新型态的数据,就必须具备「敏捷营运、数据汇聚」的核心能力:在「2021国泰金控技术年会:跨界云端新常态」中,AWS就分别针对「敏捷营运」与「数据汇聚」给予相关「数码深转型」的实施建议。AWS也强调,「并蓄、兼容」的思维才能让企业在数码转型时代下持续领先。

深转型1:从容弹性的服务运行环境 ── 虚拟机器到『混合云容器』的并蓄

「『协调式容器混合云服务』就是并蓄的概念」AWS解决方案架构师指出,企业都希望能快速开发出新服务来对应市场,然而这背後需要「从容弹性的运行环境」来作为靠山,因此容器(Container)就了近年企业纷纷投入的运行模式,因其具备「降低维运风险、优化成本效能、增加开发速度、缩短测试时程」等特点。

然而,企业在转换使用容器上,多数企业对虚拟机器或实体设备的长期投入,将成为数码转型时的挑战,因而企业都会希望当进行转移时,容器必须也同时具备四个条件:一、只需开发应用程序,不用费心底层建置。二、底层架构可以服合营运需要。三、能快速建置、无缝转换。四、安全性与隔离效能被规划设计。

企业可以透过Amazon ECS(Elastic Container Service)来执行容器化应用程序或建立微型服务,就能满足这些需求。若企业希望能整合既有的设备,则可以使用ECS Anywhere,将Container建置在虚拟机器或地端设备上。

此外,若客户需要「开源」的容器解决方案,也可采用Amazon EKS(Elastic Kubernetes Service),也能够利用EKS Anywhere来进行容器的自由布建。

AWS也针对每个企业不同的底层场景需求,提供了「虚拟机器上的EC2、边缘装置上AWS Local Zones/AWS Wavelength,以及地端设备的AWS Outposts」三种模式,让客户可以依照营运与发展需要,简单的进行底层架构。

AWS解决方案架构师也透露,Running Container Anywhere是一种打破现行业界的部署策略,让企业面临数码转行时不再痛苦,而能够并蓄部署,因此ECS也授到各界企业客户青睐,广泛使用在「应用程序开发、共享服务介接、企业程序迁移、机器学习训练」等方面。

深转型2:有效治理的数据储存模式 ── 从数据仓储到『数据湖』

当「容器」带来从容弹性的服务运行环境,意味着数码服务的开发与推出将更快更多,企业每天所产生的数据也将大量增加,并延伸出新的数据型态,从结构化数据进展与大量非结构化数据并存的时代,因此在既有的数据仓储(Data warehouse),也必须部署能储存各式数据的「数据湖(Data Lake)」,打造「适应变化成长、能够独立扩展、易於存取共享」的现代化数据架构。

AWS解决方案架构师认为,以金融业的为例,就需要有「更多的数据(交易记录、信用评分)、更佳的分析(经济/风险/现金流预测、风险模型优化)、更具意义的影响关键(审核效率、客户新信用赋予)」以及「更多的用户」才能维持数据驱动的分析与洞察。

「因此,数据已非一堆数字或躺在数据库中,而是一个能被活用的数据平台」,企业应要视数据为资产,也需让员工具备数据素养与使用权,并且让各个数据分析的结果回馈、集中管理,成为一个循环,为企业最出更好的决策,这就是「数据湖」的概念,数据湖是现代化的数据管理型态,因其具备「数据汇流、原样储存、多元分析」的基础,所以能打造成「兼容」各种数据、各种人员、各种分新的数据平台。

AWS解决方案架构师举例,美国金融业监管局FINRA需要一个平台,能够每天平均采集、处理、存储360亿个市场事件,并可以在高峰日时动态扩展到处理1,000亿个事件。为此FINRA做了以下配置:数据汇存:一、Amazon S3(数据湖)。二、数据分析:Amazon EMR(图形化洞察)、Amazon Athena(数据查询)。三、机器学习:Amazon SageMaker

FINRA因而可以从容应对来自3,700个证券经纪商、12个交易所的数据,做滴水不漏的储存与分析,必且提供分析师查询与分析数据所需的工具。而在导入AWS解决方後,FINRA的交互式查询效率共提升了近400倍,大幅提升调查能力。

不仅如此,如Mastercard购并NuData後,希望采用生物识验证帐户所有人的身份,以防诈骗,只要在加上Amazon Kinesis(处理及分析串流数据)、Amazon Redshift(云端数据仓储与分析),就能同时针对数百个数据进入点收集和分析数据,顺利达成用户进行身份验证。

深转型之钥:打造「敏捷营运、数据汇聚」的云端生态系

「金融服务数码化的浪潮兴起,让客户可以无时无刻、无缝地使用多元的在线金融服务,而这也让金融机构内的数据从传统的静态仓储,逐渐转变为快速流动的数据流」国泰金控数据科学实验室技术经理魏家祥指出,近年来实时串流数据成为重要的数据来源,举例来说,当客户交易出现异常行为,就属於非结构化数据,已非传统静态数据库可以应付,这时就需要开发实时串流数据处理工具,透过动态数据湖结构来处理高速实时的数据。

目前国泰也已将此工具导入至银行客服系统中,让国泰能快速解决客户的问题。

谈到数据湖,魏家祥强调,金融业的数据大多仍是以结构化数据为主,所以在选择数据湖时须考量几件事,包括数据湖必须能够结合结构化数据的数据仓储,还要能支持SQL查询语法,并具备强大的运算力、扩充力与丰富的分析函式库,进行数据处理、数据分析、结构应用,来开发出更好的数码服务给客户。

目前即是选用Hadoop作为数据湖平台的核心,让国泰各子公司将静态数据集中在这个平台上,并应用各种Hadoop生态系的服务来分析其中的数据。

KKStream也回应,KKStream必须同时面对用户行为数据与影像串流数据的处理,如前者数据量庞大,并随着服务范畴与使用人数而持续成长,每多一项新功能,数据就会多出一批;而後者数据量较少,但如影音、图片每一笔的数据大小却大很多,因此在做分析或机器学习上会使用不一样的工具。在用户行为数据的处理上,使用的是基於Amazon S3而建置的数据湖,搭配AWS Data Pipeline做数据转移与转换。

若是针对影像串流数据,则使用NoSQL的Amazon DynamoDB来储存非结构化数据,如若是存在Amazon S3上则会搭配AWS Athena交互式查询服务,只要定义结构描述,就能使用标准SQL开始查询。

此外,KKStream也采用AWS EMR做为大数据平台,并利用其中的Spark服务来做串流处理、互动SQL、机器学习。 「云端技术正在逐步让机器科学的『民主化』(Democratization)加速。这个现象不是未来式,而是进行式!当被重复套用的数据科学与技术被一一民主化,越来越普及,所以企业对於数据科学的投入,相信会要往更进一步的『专业化』迈进。

当未来影音全面进入4K时代,会有更多的数据可以被分析,来做精准推荐,你可想像有一天人工智能剪出某个片段,推荐给你,就像看摘要精华一样」KKStream说。

对於云端服务,魏家祥也表示,采用云端服务後,让团队能更快速地取得开发资源并获得相对应的工具,让很多研究及想法可以快速地开展,因此,不可否认,云端技术确实是推进数据科学快速发展的重要推手,也期待未来能持续在法遵与数据保护的前提下,研究探索先进云端技术。

AWS解决方案架构部经理也呼吁,云端生态系已非未来式,AWS将以「敏捷营运、数据汇聚」为概念,为企业夥伴打造最坚强的云端生态系,实现企业中人人都是数据科学家的愿景。