聚上云携手Cloudera着眼金融业混合云数据治理 应对数据整合和AI挑战
Epic Cloud聚上云指出,「数据上云」、「网安联防」、「数据共享」,无非是2024年金融业的三组烫金关键字。2024年,金融业预计都将围绕这三组IT项目展开积极作为。持续精耕企业数据治理和整合应用的Epic Cloud聚上云,偕同在数据整合领域具有全球领导地位的Cloudera,为金融产业传授云地数据整合之道,助力金融业自信应对极具挑战的数据和AI课题。
回望2023年,为促进普惠、创新、韧性与永续等目标,金管会已发布「金融科技发展路径图」,带动金融科技数据迅速增长,并解开金融业上云限制,使混合云数据治理成为金融产业的重要课题。然而,金融业在面对混合云数据治理乃至AI应用的同时,无可避免遇到诸多挑战。
着眼于此,Google Cloud最高等级合作夥伴Epic Cloud聚上云,携手知名软件服务商Cloudera,策划「金融产业混合数据治理与数据AI平台应用」精彩讲堂,亦同步邀请两位Cloudera加值服务坚实夥伴炬识科技和爱创大数据,一同发表经验谈,四强联手,协助金融业者更有效率地采集、储存、处理、分析和可视化数据,同时确保数据安全性、可靠性与实用性。
关于Cloudera:全球Top 500金融机构采用的技术平台
熟悉Hadoop的人,肯定对Cloudera并不陌生。「Cloudera深信数据可以使今日不可能之事,成为明日之可能。Cloudera向世界展示了数据的价值,并创造了由开源社群之力不断推动创新的产业和生态系。」由Cloudera的简介即可略窥Cloudera的使命与特性。
Cloudera台湾业务总监苏懋欣指出,Cloudera成立于2008年,由来自Google、Yahoo、Oracle、Facebook的菁英共同创立。2011年时,Yahoo的Hadoop团队脱离出来创立Hortonworks,此后,公司在2019年并入Cloudera。截至目前,Cloudera在全球拥有逾3千名员工、逾2千家客户,其中包含许多全球Top 500金融机构。Cloudera更是美国政府指定的合作夥伴,从国防单位、情报单位、联邦到地方政府,皆为Cloudera的现有客户。
运用Cloudera CDP平台,高效管理与运用数据资产
综观来看,Cloudera现今最热门产品即是CDP(Cloudera Data Platform),CDP是由Cloudera与Hortonworks合并后的优势互补效应所淬链成。随着过往大众熟悉的CDH、HDP陆续在2021~2022年停止支持,CDP(Cloudera Data Platform)就成为当前市场上的主力版本。目前,虽然仍有不少人把Cloudera与「免费的开源软件」划上等号,不过,其实从2021年1月31日起,Cloudera所采取的订阅制服务,使客户得以在订阅期间取得漏洞补丁、版本升级、开Case等关键服务,获得更有保障的服务与更佳的使用体验。
聚上云是Cloudera台湾独家代理夥伴
聚上云副总经理朱驿清则表示,「数据清洗」、「数据平台」、「商业模式再造」是当前不分产业的企业,主要面对的三大议题。尤其,数据管理平台(Data Management Platform)更是企业在数码转型中,承先启后的重要工具。监于此,聚上云持续戮力开拓可满足企业上在AI与数据整合方面的解决方案,并正式于2023年取得Cloudera台湾独家代理夥伴资格。藉由Cloudera云地整合数据平台Cloudera Data Platform(CDP)的推广,已助力不少金融机构善用此一平台,为企业AI/ML应用打下稳固的数据根基,以期有效强化云地数据治理、AI应用,甚至防制金融诈欺。
Cloudera湖仓一体,透过SDX共享数据,加速实现云地整合
Cloudera解决方案架构师谢宗佑开门见山谈及「数据地基」的重要性。倘若一开始数据地基没扎稳,却又在上面叠床架屋,可想而知,一连串的「技术债」恐引发后续的连环灾难。为帮助金融机构趋吉避凶,谢宗佑提出几个重要概念,其一便是Open Data Lakehouse,意即整合数据湖与数据仓储,形成「湖仓一体」,进而能够上云,甚至做到混合多云。
现今许多金融机构皆有复杂的数据环境,且至少有一座地端系统,如Oracle DB或Hadoop等等,因此在地端肯定有大量行内的交易数据;而在国内外的分支方面,也许有一些Customer Data选择放在公有云中;行销部门则可能选用Google GA,并将相关数据放在Google Cloud Storage(GCS)中。以上无非意谓着,若企业想推动数据应用,则势必先整合地端、Google Cloud、AWS、Azure等多重的数据源。
此时,Cloudera便派上用场了。企业如何利用Cloudera架构来解决上述难题?Cloudera基于SDX(Shared Data Experience),使客户能透过单一界面查看云地所有数据表Table、各自的Schema,以利企业用户判断如何设定资源(可能来自HDFS、Hive、HBase⋯等资源),以及,这些Table会经由哪些条件被哪些人存取,而这些人存取时也都会留下日志轨迹。
若再继续深入来看,因为三大公云皆可Enable Cloudera的服务,在地端能支持Kubernetes环境,也能支Cloudera的Embedded Container Service (ECS) 系统,因此,客户可借助SDX全面实现云地Infra的安全设定、监控和权限控管。
Cloudera 4种令人趋之若鹜的独门优势
更重要的是,Cloudera拥抱开源,参与多达40多个开源专案,内部拥有上百个Apache Committer和PMC,因此,会持续整合适合元件到Cloudera Data Platform中,如Iceberg即是一例。简言之,Cloudera致力让客户在执行应用或数据的迁移时,尽可能不需要重写程序、安全规则或Pipeline。换句话说,一旦启用Cloudera 架构,无论您是金融机构或其他产业,均可轻易做到下列四件事:
(1.)迁移应用程序时无需重写
(2.)建一次应用程序即可执行于任何环境
(3.)顺利实现 Dynamic Motion
(4.)营造前所未有的数据敏捷性
稳固的数据治理根基,决胜AI商业应用
作为Cloudera加值服务夥伴之一的炬识科技CEO颜良修则分享道,炬识科技成立于2015年,以数据湖(Data Lake)为主轴,协助诸多金融机构、政府部门或大型企业执行相关专案。谈及以往炬识科技主要耕耘「数据湖」,不过近年则将重心转向数据治理。颜良修说,数据湖属于数据工程,较接近数据科学和前端的应用系统开发或微服务,不过,无论是数据工程还是数据科学,都完全无法脱离数据治理。炬识科技因频繁遇到客户要求做数据品质保证,因此开始着力于数据治理,协助客户确保数据的可靠度与安全性。
如何避开那些数据治理常见的地雷区?
颜良修强调,其实过去早有不少大企业启动数据治理专案,然而,当时未明确区分数据架构与数据品质管理,以致衍生许多复杂难解的问题,使多数专案走向失败。因此,她建议先建立数据目录,做好诠释数据管理,再强化数据品质,然后持续根据规范,形成企业应遵守的流程,最终执行主数据的管理。为此,炬识科技推出了数据品质成熟度模型,旨在协助企业循序推进两阶段工作,先打好数据架构与品质保证的基底,才能确保上层数据应用的有效性,并藉由数据来解读商业问题。
藉由CML服务,打造跨越云地、产地直送的AI应用
同样作为Cloudera加值服务夥伴之一的爱创大数据(AInnovate),则由共同创始人林宗甫分享道,爱创大数据作为Cloudera的夥伴,其主攻AI/ML、大数据处理、数据中台、上云迁移等领域。基于来自多数金融客户的应用需求,林宗甫阐释了两种应用情境,一是如何从PDF财报撷取结构化文本;另一则是如何透过 LLM 打造能回答企业内部营运问题的Chatbot。
以PDF财报撷取结构化文本为例,该文本由几项元件组成,包括目录/页号侦测、段落侦测暨文本撷取,以及将前述两个模型与程序逻辑包装为CML Endpoint(CDP Machine Learning Endpoint),意即透过CML Endpoint将训练好的模型直接以Dock Image形式加以部署,即可迅速展开执行。
立即免费体验湖仓一体,让Data跨越云地藩篱
举凡数据治理、ML应用,不论藉由On-premise或公有云上的Cloudera Data Platform(CDP)丛集皆可轻易实现,且云地应用体验完全一致。聚上云携手Cloudera,提供5天Trial授权方案,申请者不仅可透过公有云试用CDP,还可参考Cloudera提供的相关文件,免费试用湖仓一体、GenAI、和ML等服务。欢迎联系Cloudera独家代理夥伴Epic Cloud聚上云,将有专人立即接洽。
Google Cloud搭配Cloudera CDP的首选夥伴 − 聚上云
Epic Cloud聚上云是国内唯一兼备企业核心应用实战经验的Google Cloud菁英级夥伴,可凭藉Google Cloud在地机房、100%采用绿电的双重优势,充分满足金融机构期盼数据上云但不离境、借力使力实践ESG目标的双重需求。作为Google Cloud结合Cloudera CDP应用的业界第一把交椅,Epic Cloud聚上云是金融上云和企业数据整合的首选夥伴。透过Google Cloud结合Cloudera CDP,让数据治理有如神助,加速建立最佳化的AI/ML应用基础架构了。