report
DForum0906

欲充分发挥大数据价值 得先把关资料质量

  • 谢明珊
一旦资料质量不佳,再多机器学习工具都于事无补。MIT Libraries

物联网(IoT)、工业4.0和智能制造的时代来临,资料成为企业不可或缺的利器,但企业发挥巨量资料的价值之前,必须设法从资料获取洞见。据Automation World报导,资料的质量攸关资料分析的成败。

Data Quality Solutions总裁Thomas C. Redman指出,历史资料必须满足各项高标,否则资料质量不佳,再多机器学习工具都于事无补。资料质量低劣可能是因为资料提供者不清楚使用需求,量测机具没有校准或者有人为失误,因此资料科学家必须清理资料,但仍无法清除所有失误。

Seeq资料分析公司营销长Michael Risse表示,客户最常面临的问题并非资料管理,其实最大的挑战是从资料获取洞见。资料分析之前,不仅要统整各种资料类型和接口,还要协调来源不一的时间序列资料。

再来是资料清理,包括移除资料的异常值,修复资料的漏洞,如有必要仍需消除资料杂讯。此外也要记录资料准备工作,或者锁定某些资产模式或标准,让资料分析集中于特定议题。

Risse坦承,市面上有太多资料分析方案,加上这个产业的发展瞬息万变,如何挑选适合的资料分析服务供应商堪称一大挑战。