查找引擎是较早的人工智能应用之一。吴军在他的《超级智能时代》由查找引擎的例子归纳出这个人工智能竞争法则:谷歌之所以在查找引擎的竞争中胜出,是由于累积的大数据而不是由于优异的演算法,现在这已经是一个人工智能领域的常识了。
沿着这思维去考虑台湾人工智能产业的发展,就会先避开几大网络平台拥有绝对优势大数据库的领域。另外,台湾的内需市场太小,不足以单独支撑一个产业发展,所以即使有自己独特的大数据库,也要有应用于其它市场的可能,譬如汽机并驰的交通系统、高密度的住商混合居住型态、高产值的小农植作等,如果台湾先进入这些领域,都有可能在东协25亿人口市场取得商机。
让人更想当然尔的是台湾健保数据库的人工智能应用。台湾的医疗水准高,健保制度在全世界排名更是高居榜首。而且健保制度因为牵涉到法律、制度、经费多面向,要建立不易。美国的态度反覆,而大陆还只粗具雏形。医疗信息又有个资法的限制,不是一般网络平台可以自由出入的。所以表面上看来台湾的健保大数据库至少可以保有几年的优势,以此发展出来的智能医疗应用,有可能率先达阵。而在网络的世界,领先的优势是很难撼动的。
但是台湾并没有集中的医疗数据库。健保署有的数据很多是跟给付相关的数据,譬如用药。细详的医疗相关电子档数据在各医院和诊所,有各式各样的文字档,包括病历中的病诉、医师的诊断、处方等以及各种检测数据,譬如体温、血压、各式血液检测数据等,这些可以用文本记叙的数据基本上已经电子化。
但是现代医学诊断依赖的一个支柱-影像则只摘取部份样本至医院数据库,大部份的原始数据可能保存在执行的科处、甚至医师手中。所以健保署至今到各处稽核,仍然是用人工,影像部份只看样本。转院呢?在这网络的时代,仍然是将影像下载至DVD再手携至另一医院,想起来荒谬。
所以台湾的健保制度虽然领先,并产生庞大、理论上可以用于智能医疗的大数据,但是以目前的数据管理方式,仍然难以用于机器学习的用途。还要做些什麽呢?1. 可以集中处理的大数据库。2. 有统一标帜(tagged)的医疗信息,特别是图片,以及医师的判读结果。唯有如此,这些数据才有办法用于监督学习。至于医疗信息的统一标帜,可以让各科学会来协调制订。3. 专用的宽频通讯网络,用来传送厚重的图像数据到大数据库,像MRI的图片档案高达1.2GB,小一些的超声波图片也有500MB。这些工作因为牵涉到法规、政府机构、医疗院所等的协调和改变,企业即使有意愿也未能使得上力,是政府部门最能帮助企业发展产业的基础建设工作。
最后,当成一项智能医疗的标竿计划,也可以当成检验基础建设的完备程度,试一试启动较轻巧的200kB心电图的人工智能判读、或者500kB的256切电脑断层扫瞄人工智能判读计划。成了,这就是可以商品化的产品,后面还可有源源不绝的产品,基础架构在。
现为DIGITIMES顾问,1988年获物理学博士学位,任教于中央大学,后转往科技产业发展。曾任茂德科技董事及副总、普天茂德科技总经理、康帝科技总经理等职位。曾于 Taiwan Semicon 任谘询委员,主持黄光论坛。2001~2002 获选为台湾半导体产业协会监事、监事长。