advantech
event
 

【黄光彩专栏】健保资料库可成为大数据的基础:病历用词一致性

一体化医学语言系统的组成内容。黄光彩

生活上,你是否有这样的经验,曾经觉得你和你的医生讲的语言不同?有时,即使你认为自己理解的单词对医生也可能具有不同的含义。举个例子:说明心脏病发作情境,你对医生叙述家人理解的心脏病症状,包括心跳加速、胸痛、呼吸急促、昏倒。但事实上,你的家人是「心脏停止跳动!」。

当你与医生交谈时,你说家人是心脏病发作,幸免于难,医生却说:「他不是心脏病发作,而是心脏骤停;但没有肌肉损伤。」幸运的是,紧急救护人员使用了心肺复苏术并使他复活。医生是什么意思?到底是怎么回事?对你来说,心脏病发作意味著心脏没有跳动。对于医生来说,心脏病发作意味著心肌受损。

另一个例子:发烧情境。你的孩子体温为37.5度,你打电话给医生诉说,医生说:「那不是发烧。」她是什么意思,到底是怎么回事?对你来说,体温高于37度,就是发烧,然而,对医生来说,发烧的定义是超过38度。你和你的医生有时会说不同的语言,却使用相同的单词。

用词统一才能让病历资料库发挥数据分析作用

医生和病人家属会有用词上的误解,甚至医生跟医生间也会有类似的误解。医院的病历间也会有不一致性的问题,他们所使用的词汇如果不一致,集成起来的病历资料库,就会产生很大的误解和误差。每年出版的生物医学资料数量越来越庞大,每当查找医学文献、病历资料库时,检索到的信息数量都很巨大,要如何更精确,不会误解,就成了一个大问题。

同一家医院,不同的两位医师,同科或不同科别,对同一个病情的表达都可能不一样,因此,每家医院的病历数据库当中,针对同一个病情的用词就可能不尽相同。目前各界都希望利用计算机系统、人工智能来协助,应用与分析这些生物医学大数据,希望能有精确与预测的技术发展,希望达到这目标,就必须要有一套共同的「知识表示和推理」(KR²,Knowledge Representation and Reasoning)的语言来表达知识,而且能够有一致的逻辑推理,才能开发出具有理解推论能力的系统,来加强知识的交换、取得、学习。

医学用词统一的两大障碍

要达到这一个目标是要克服两大障碍的:「不同信息来源和不同人员表达相同概念时,所采用的语言要一致或可相互理解」与「有益的信息在许多互不相同的资料库和系统之间的交换和传播不会被误解」。

知识表示和推理是人工智能(AI)领域中的一部分,用于协助计算机系统来表达文辞和语意,可以用来解决诸如诊断医疗状况或自然语言对话。 知识表示法结合了心理学中关于人类如何解决问题和表示知识的方法,建立一个标准形式,使复杂的系统更易于设计和构建。

知识表示和推理还结合了逻辑的运算,以达自动化各种推理,例如规则的应用或集合与子集的关系。知识表示法包括语义网(Semantic nets)、系统架构(System architecture)、框架(frames)、规则(rules)、本体(ontologies)。自动推理的引擎包括推理引擎(inference engines)、定理证明(theorem provers)、分类器(Classifier)。

一体化医学语言系统 Unified Medical Language SystemUMLS

一体化医学语言系统(Unified Medical Language System;UMLS),又称为统一医学语言系统,是对生物医学科学领域内许多受控词表的一部纲目式汇编。UMLS提供的是一种位于这些词表之间的映射结构,使这些不同的术语系统之间能够彼此转换;同时,UMLS也被看作是生物医学概念所构成的一部广泛全面的叙词表和本体。UMLS还进一步提供有若干适用于自然语言处理的工具。UMLS主要旨在供医学信息学领域的信息系统开发人员使用。

UMLS是由美国国家医学图书馆(National Library of Medicine;NLM)设计并负责维护,定期更新一次,且可以免费使用,是由Donald Lindberg博士于1986年发起的,他也是后来的美国国家医学图书馆馆长。

UMLS构成组件:MetathesaurusSemantic NetworkSPECIALIST Lexicon

第一:Metathesaurus

中文称为超级叙词表或元叙词表,是UMLS的核心资料库,是来自各种受控词表的概念和术语以及它们之间的关系所构成的集合;Metathesaurus 之中收录有100多万个生物医学概念和500多万个概念名称,而所有这些都源自UMLS所收录的100多部受控词表和分类系统,如ICD-9-CM、ICD-10、MeSH、SNOMED CT、LOINC、世界卫生组织药物不良反应术语集(WHO Adverse Drug Reaction Terminology;WHO-ART)、英国临床术语(UK Clinical Terms,又称为Read Codes)、RxNORM、基因本体(Gene Ontology;GO)和OMIM等等。

第二:Semantic Network

中文称为语义网络,不同于计算机科学领域所泛指的语义网络和语义网,Semantic Network是一套类别和关系,用于对Metathesaurus之中的条目加以分类和关联;每个概念都指定有至少一种「语义类型」(Semantic type)」,也就是一种类别。目前共计有135种语义类型和54种语义关系。

主要的语义类型包括生物、解剖学结构、生物学功能、化学物质、事件、有形对象,也称物理对象(physical objects)以及概念。语义类型之间的连结为语义网络提供了结构,显示分组与概念之间的重要关系。语义类型之间的基本连结是「isa」连结,又可称为类属关系。依靠这种关系建立起来的是一种由类型构成的层级结构。

第三:SPECIALIST Lexicon

中文称为专家辞典或专家词典,是一个词典信息资料库,供自然语言处理(NLP)工作使用;其中,每个条目分别含有句法,象是如何将若干词语组合起来,创建出某种含义;构词法,包括形式和结构,以及正字法,如拼写方面的讯息。一套Java程序利用该专家辞典,通过词类(parts of speech)把单词关联起来,来分析生物医学文本之中的词汇变体。这将有助于网络搜索或者对于电子病历的搜索。

病历要能分析 用词统一 还需各界共同努力

许多支持性的软件工具。即使计算机系统也要能够分辨同字不同义的情况。这种歧义(Ambiguity)会经常发生,例如Cold 这个词在UMLS中有四个概念: Cold temperature (低温)、Common cold (普通感冒)、Chronic obstructive lung disease (慢性阻塞性肺疾病)、Cold sensation (使用冷感觉)。

软件系统要有NLP的语意分析能力。UMLS本身被用于国家医学图书馆的PubMed和ClinicalTrials.gov临床试验系统。生医领域的工作及研究人员都对这些内容不陌生。

黄光彩

安强公司董事长黄光彩,积极协助台商利用颠覆性创新与AIoT推动各产业数码转型,同时建立全球数码总部,关注议题包括3D打印、智能制造、大数据、智能医疗大健康应用等。

目前聚焦创新、重新定义顾客关系、多元商业模式、找寻新方法创造深层价值、助企业提升营收与效率。

过去曾担任IBM电商数码转型全球副总、美国国家医学院图书馆(National Library of Medicine;NLM)与美国国立卫生研究院(National Institutes of Health;NIH)资深顾问。

作者更多专栏

  •     按赞加入DIGITIMES智能医疗粉丝团