Microsoft
科政中心
 

医疗电子病历应用的机会与挑战 台大AI专家:缩写还原与母体不足

台湾大学信息工程学系暨研究所助理教授陈縕侬希望透过NLP,协助医疗人员降低负担的同时,也拓展医疗信息更多的落地应用。蔡腾辉

人工智能目前在医疗的应用包括了影像分析、语意分析、生理数值警示分析等等。其中,国际大厂、台湾资通讯厂商、新创团队纷纷切入数码病理与计算机辅助判读系统的研发与应用,而台湾大学信息工程学系暨研究所助理教授陈縕侬与团队则藉由自然语言处理(Natural Language Processing;NLP)的方式,提升病历分析与国际疾病分类(ICD10)的高效能应用。

机器学习快速,让病历编码加速有了曙光。在自然语言处理的应用上,陈縕侬从包括国际疾病伤害及死因分类标准 (International Statistical Classification of Diseases and Related Health Problems;ICD)、病历分析等与文字相关的医疗应用,开始结合机器学习和深度学习的技术。

缩写歧异性与母体数稀少的项目 都有进一步突破

在医疗结合人工智能的发展领域中,目前医疗影像辅助判读系统的技术服务供应商较多,主要有几个原因,包括影像收集的技术成熟、GPU升级快速、影像内容客观,比较不会有人为因素等等。然而,NLP的分析之所以比较少人做,也比较困难的地方在于,除了因为ICD代码有上千个,有一部分很常出现,然而另一部分出现次数则超级少,数量也成为训练智能系统上的限制,然而,陈縕侬的目标就是罕见的疾病代码,也可以在少量资料下训练出好的效果。

由于「病历会有每位医师的撰写风格」,因此希望根据医师写的诊断书,能预测对应的ICD代码,进而降低医院病历编码师(coder)的工作负担。举例来说,医师时常在病历当中以疾病缩写的方式记录,然而,每个科别的缩写习惯不同、歧异性(ambiguity)很大。如何「把缩写还原」成了最重要的目标之一。「1个缩写单字,也许有5个可能的还原结果」,陈縕侬说,也因为这样,训练过程中,一定要有上下文(context)来协助学习。

「学术论文」也是提供机器学习相当好的材料。比方说,工程师可以将文献当中没有缩写的部分,改成缩写的内容,再透过上下文整体学习的过程,让系统尝试还原,如此一来,就能够提供机器不同的语料,进而达成「把缩写还原」的目标。除此之外,在类似领域的学习共享能力应用上,因为ICD有阶层结构,所以如果都是心脏类的疾病编码,训练且提升A类别的判别能力的同时,部分B类别的产出效率与正确率也会有显著提升。

蔡腾辉

DIGITIMES电子时报智能医疗主编蔡腾辉Mark Tsai
专注研究智能医疗产品技术服务导入场域时,所遇到的困难症结与如何克服要点。
精通中英德语,热爱挑战与Swing Dance。
Facebook:DIGITIMES智能医疗

作者更多专栏

  •     按赞加入DIGITIMES智能医疗粉丝团
更多关键字报导: 电子病历 算法 医疗AI算法