IBM携手Spark 拥抱机器学习的下一个时代

廖于婵／台北
2015-09-17
分享

Spark是目前相当受欢迎的开源丛集运算架构，相较于Hadoop，Spark拥有敏捷快速的效能和便于应用的优势，因其采用存储器储存数据数据，使它拥有高效运算；而通用的API协助使用者编写复杂的平行运算程序，让Spark程序更容易开发和理解。

凭藉高效能优势，Spark已成为机器学习的重要工具。IBM日前宣布加入Spark社群，IBM期望和Spark社群暨其核心关系企业Databricks合作，共同引领海量数据及机器学习领域迈向未来发展。

强化Spark的机器学习能力、创新演算法开发

台湾IBM软件事业处商业分析业务协理胡育铭表示，IBM美国旧金山Spark技术中心有超过200位的技术人员正在将Spark技术具体实现在企业应用中。同时，也将Spark嵌入IBM领先业界的分析和商务平台，让Spark成为IBM Bluemix平台上的服务之一。

另外，IBM在全球10多个实验室将投入超过3,500名研发人员展开与Spark相关的专案，并让Spark开放生态系能使用IBM研发超过10年的机器学习技术「SystemML」，IBM的认知运算系统Watson(华生)便整合许多SystemML机器学习的功能。

此次IBM与Databricks合作，即是希望结合SystemML的功能，让Spark具有更强大的机器学习能力，以及让数据科学家更专注于演算法的应用，而非专注于枝微末节的技术。

Open Data Platform(ODP)是众多信息企业联合成立的Hadoop数据平台，然而对大部分企业用户而言，开源并不代表可直接使用，所以在开源之上又推出Hadoop数据平台。

希望在选择Hadoop数据平台中的核心元件时，大家可以选用公共、统一的代码。如此，透过使用Hadoop数据平台，使用者可不再受限于特定厂商的开放原始码，既利用开源的好处，同时也让企业用户不再备受束缚。

胡育铭进一步表示，IBM一直致力于将企业客户的需求与最新技术进行有效衔接，然而新技术很多，很可能会出现信息孤岛的情形，我们能将新的技术为企业需求真正合而为一，将所谓的单点和孤岛进行整合。

IBM对企业应用的丰富经验是许多商业分析解决方案供应商无可比拟的，例如新元件一直出现以及重要技术持续变化，透过Open Data Platform (ODP)开放平台，让多家信息公司在平台上贡献经验与想法，为企业客户提供服务。

IBM专精于分析探勘语言及SQL关联式数据库领域已长达30多年，具备大量的优化技术。此外，SPSS的许多预测分析产品的演算法也可与Spark相互结合，因为SPSS得以让Spark大幅提升处理信息的数据量、速度与能力。未来IBM将陆续推出Spark系列产品，包括Watson Analytics、DataWorks、PuerData 以及其他解决方案。

全球IBM投资超过250亿美元培养Spark技术人才

Spark具备敏捷快速、便于应用的特性，而其开源属性可在全球持续改进，未来IBM的专家将与Apache Spark开放社群合作，推动先进机器学习技术，并加快智能创新业务应用开发的速度。

IBM在开放原始码创新领域已经耕耘多年，我们深信开源的力量是客户创造价值的根源，IBM将全力支持Spark，将其作为推动分析的基础技术平台，从根本上加速推动业务创新，协助客户部署和运用Spark推动商业分析策略，实现业务转型和差异化竞争优势。

除支持Spark之外，IBM透过向下扎根方式与大中华区大专院校合作，如宣布投资1亿美元，在大中华推动「U100」计划；在台湾，IBM已在政大、台大、交大等多所大专院校开立商业分析(Analytics)课程，期望能培养更多未来的数据科学家，截至目前为止，全球IBM在商业分析领域已投入超过250亿美元。

关键字

IBM spark软件

加入已选取到「关键字追踪」什麽是「关键字追踪」

商情专辑－开放数据(Open Data)专辑