投入数据分析 慎防陷于迷思与误区
毋庸置疑,尽管几个年头过去,「Big Data」热度依旧不减,称得上是当今企业不容轻忽的显学。究其主因,乃在于这门经常翻译为「巨量数据」或「大数据」的课题,委实创造了许多让人动容的传奇故事,包括老生常谈的Target预测女性消费者怀孕、Walmart发现啤酒与尿布的销售量呈现高度正相关,以及Netflix藉由大数据分析观众收视习惯,决定纸牌屋剧情走向,进而创造收视热潮。
影响所及,举凡精准行销、精准医疗、智能制造、智能交通、智能家庭、智能建筑、智能社区、智能城市等伟大题材,都拜Big Data画龙点睛所赐,因而漫天飞舞。
撇开前述若干流于高远的意境不谈,不可否认,无论Target、Walmart或Netflix所挖掘的任何一项发现,似乎都足以让一家原本平庸的企业,顿时间挖到满坑满谷的金矿,因而扶摇直上跃居市场赢家;而这个巨大的期望,正是驱使各行各业对大数据分析络绎于途的主因。
当心!大数据存在诸多陷阱
只不过,大数据是一门超乎大家想像的艰深学问,因为它里头埋藏了太多陷阱,绝对不是仅凭着随机分组的简单实验,便可捕捉到不同变量之间的真正因果关系,若未经过验证与确认,就冒然把一些看似惊喜的发现,当做重大商业决策的参考依据,可能无法导致成功。
曾有专家指出,尽管怀孕、啤酒与尿布、纸牌屋等故事太过引人入胜,但绝不能只凭这些表象来妄下断语,主要是因为,如果纯粹只看两件风马牛不相干的变量,例如美国鸡蛋销售量与道路交通意外事故,冰淇淋销售量与溺毙人数,甚至是IE浏览器与美国谋杀案件的发生率,彼此间都存在着出人意表的高度正相关,难道大家就可以冒然做出某某商品只要销路畅旺,就可能为社会带来不幸的诠释?当然不是!
换言之,企业在衷心期盼可藉由Big Data无限改善决策品质之际,不妨先收拾起雀跃心情,先退后一步,想想自己有没有掉入陷阱。
首先,大家解读Big Data,往往把Volume(容量)、Variety(速度)、Veracity(多样性)、Veracity(真实性)、Value(价值)等几个V挂在嘴边,基于华人从左到右的阅读习性,不自觉地把Volume当成个中第一要项,所以台湾翻译为巨量数据、对岸翻译为大数据,便是落入这个迷思,彷佛要想挖掘Insight,一定得从「巨量」或「大」的数据洪流里面钻,殊不知不管自己想要做的题目为何,不问三七二十一硬把满堆数据纳入分析,很容易导致杂讯太多,影响数据的真实性品质,最终产生的结果,参考价值恐怕有待商榷。
对岸讲的「大」数据,或许还可解读成为重大之意,并非绝对偏颇,反观台湾讲的「巨量」数据,便很难摆脱数大便是美的迷思。总之,要做好Big Data分析,不妨先抛开数量,如果真有价值,甚至经由Nano Data或小数据而来也无妨,因为重点是要设法端倪出数据核心,意即挖出从前看不见的细微徵万亿,才不枉做数据分析的初衷。
当然,前面提到的Nano Data或小数据,倒未必是只取小量样本,而是必须根据想要分析的题目,从满堆数据中抓出重要的相关属性来加以分析,避免在一开始就制造太多垃圾;最明显的例子,Target如果只想分析出怀孕的消费者,绝不会把男性顾客、及小于18岁或高于45岁的女性顾客等无用的累赘样本,都纳入分析。
至于其他重要风险,还包括了要避免犯下样本偏差的错误,以及莫要轻信没有理论基础的分析结果。有关Online Ranking,在多数情况下,仅反应出对某项议题极端赞同、或极端反对的看法,如果依此偏颇结论,骤然解读为整个社会大众的意向,难免有所偏差。
针对理论基础部份,有一个曾被专家表述的传神之例,在2009年以前,Google的流感预测趋势(GFT)被喻为佳话,其宣称可从人们在查找引擎上留下的信息,对流感进行实时预报,只因唯有罹患流感的人,才会急忙查找相关信息,听来乍有道理,讵料GFT不知不觉已犯了大数据的傲慢,自认为只靠大数据,即使未有扎实理论基础支撑,仍足以战胜严谨科学实验,无奈从2009年后开始显露破绽,预测准确度急转直下,最终GFT黯然失败收场,此例相当发人深省。
态度与高度 决定专案成败
即便避开了前述陷阱,但态度与高度决定一切,企业投入数据分析的态度与高度不对,可能造成后续成果远远不如预期,沦于失败收场。
一个出身于北欧的平价时尚品牌,就是典型的失败之例。该公司曾兴致勃勃想要推动大数据应用,力求及时掌握各个区域市场的顾客意见,作为驱动生产与经营决策改良的依据。
然而与此同时,其并未同步改善总部与亚洲、中南美洲等生产基地之间的信息沟通效率,所以纵然数据分析系统产出多麽掷地有声的好结论,也无法快速有效传达到产地,彷佛大数据的视角是孤立的、静止的,不过是徒然产出一堆数据洞察结果而已,其余管理机制却依然故我,也不检讨主导大数据专案的经理人层级位阶,其实是不足的。
后续就不难想像,这家知名服饰商悻悻然称大数据实在言过其实,白走了这一遭,事实上症结在于这一遭走得并不踏实、也不正确。
同样是平价时尚品牌,ZARA则被喻为大数据应用的经典案例,只因其将数据的蒐集、分析等事项做得十分到位,包括透过偏布全球的企业网络,把每一件售出商品的价格、部门、时段、客户等数据,全都记录得详实清楚,接着借助自动化程序分析系统,抓出顾客的消费偏好,并以此作为经营决策的关键参考依据,甚至预知未来市场流行基因,而非继续迷信高层主管的主观判断。
在此前提下,ZARA得以精确地抓准消费者的胃口,并凭藉快速反应的作风,制定对应的生产销售策略,成功席卷时尚服饰业界。对比ZARA与另一家同业的大数据应用历程,尽管成果南辕北辙,但不管成或败,都值得台湾企业借镜学习。
至于最糟的一种情况,便是企业只想跟流行,让自己没有在大数据风潮中缺席,却连自身想靠它解决什麽问题、创造哪些新颖商业模式,都浑然不知,彷佛是没有灵魂、没有目标地在推动相关计划专案,自然无法创造出任何令人欣慰的成果。