智能应用 影音
EVmember
Vector Japan

发挥自然语言处理潜力 助益保险理赔与病历编码任务

发挥自然语言处理潜力 助益保险理赔与病历编码任务

不同于包括JavaScript、Python、PHP等程序语言,自然语言当中包含了结构性语法(Grammar)像是文字、语音、音乐等等,而在教导电脑理解人类语言的自然语言处理(Natural Language Processing;NLP)过程中,台湾大学信息工程学系暨研究所助理教授陈縕侬表示,从断词、理解词、分析句子、语法、语义等等结构着手,现在已具备协助保险业者快速了解诊断书内容与手述代码之应用能力,另外也有望能加快医院的病历编码作业。

Apple是水果还是电脑公司?  BERT助NLP准确判断

Google 最近在Github开放了BERT模型的TensorFlow原始码,这让模型可以透过「整句」内容来分析进一步的语意。陈縕侬举例,一般来说,如果系统侦测到「Apple」这个字,无法判断是可以吃的「水果」苹果,还是「电脑公司」的苹果。而现在透过整句的分析,如果句子当中有出现「iPhone」,那麽系统就会倾向判断这个「苹果」是电脑公司。此外,在矢量处理的过程当中,也会自动包含上下文的信息,就可进一步提高正确率。

在智能医疗的领域当中,也有不少人在研究Medical BERT的技术。比方说, 病患请领保险金时,需要医师诊断证明,而保险业者能够藉由病历分析软件系统,从诊断书的内容,就能预测手术代码,仅而降低保险理赔人员的工作量与作业时间。另一方面,应用在医院流程中,则是能降低ICD10病历编码师的工作负担。

F1 score要高 Recall与Precision要平衡

此外,由于ICD有阶层性的关系,因此在2个模型之间,可以利用相似参数,进以提升2个模型各自的准确率。

一般机器学习任务评估正确性(accuracy)方法是「全对才算是对」,所以常出现的指标反而是「F1 score」。F1 score是由Recall与Precision所组成。Recall代表的是「正确答案中,能够抓到多少」,而Precision则代表「抓到的内容中,正确的有多少」。陈縕侬说,希望提升所谓的「正确率」,那麽Recall与Precision要权衡其重要性才可以,也就是说,尽可能不要漏掉任何一个参数或是码,而抓到的又都要是该抓的。

NLP未来想做的题目

目前已经能在大量的医疗文献当中,知道许多语词之间很相似,陈縕侬未来希望能够持续深究语词(Term)之间的关联、基因(Gene)之间的关联。比方说,A基因会导致A疾病和B疾病,B基因则会导致B疾病与C疾病,那麽A基因与B基因之间就可能有交集的关联。

此外,不同的英文字,但是可能在不同情境下意思却是一样,也因此未来的训练方式将是在大量数据中,从上下文(Context)来寻找相似与矢量接近的特徵。



  •     按赞加入DIGITIMES智能医疗粉丝团
更多关键字报导: 智能医疗 电子病历