Illumina 特聘科学家台南演讲,畅谈 AI 精准医学新突破
继今年 6 月份于台北举办的COMPUTEX 2024引起AI浪潮后,全球基因定序仪器龙头企业 Illumina 的副总裁及特聘科学家樊铠豪(Kyle Kai-How Farh)博士于 6 月 21 日到台南出席医学研讨会和发表专题演讲,以「人工智能在精准医学和药物开发的应用(AI for Precision Medicine and Drug Discovery)」为题,畅谈如何借助深度学习(Deep learning)技术探索临床基因变异,并以此促进新药物的开发。此外,他也分享了 AI 在临床试验的应用以及对精准医学发展的贡献。
跨越信息遗传学医学 3 大领域,目前执掌 Illumina AI 实验室
樊博士于 2015 年 5 月加入 Illumina,目前是这家生技大厂的副总裁兼基因组解读 AI 实验室负责人与首席研究员,领导一个由超过 50 名跨国专家学者组成的跨领域团队,团队成员涵盖深度学习、统计遗传学和分子生物学等不同领域,致力探索人类遗传变异带来的临床影响,从而提升疾病诊断率,并应用于新药的开发。
事实上,樊博士本身也是一位跨领域专家,他在 2001 年于美国莱斯大学(Rice University)毕业,取得信息科学学士学位后,先后于麻省理工学院和哈佛医学院完成分子生物学博士学位及医学士哲学博士(MD–PhD)双学位。此后他曾分别于布洛德研究所(Broad Institute of MIT and Harvard)从事群体遗传学和神经生物学的博士后研究,以及在波士顿儿童医院(Boston Children's Hospital)临床遗传学部门担任住院医师,其跨学科实力由此可见一斑。
解读变异尚在起步阶段,PrimateAI-3D 助破解意义不明变异
在演讲的一开始,樊博士指出科学界现今对人类遗传变异仍然所知甚少,针对这些变异的临床影响的研究还是处于起步阶段。在 7,000 万个涉及蛋白质编码的变异(Protein-coding variants)之中,只有约 0.1% 是已知道其功能或影响的,其余 99.9% 仍是属于「意义不明的变异(Variants of unknown significance,VUS)」。有鉴于此,他与团队定下 5 年计划,期望能早日破解人类基因组中所有变异会带来的临床影响。
为了在这个领域寻求突破,樊博士的团队近年开发出一套名为 PrimateAI-3D 的深度学习演算法。顾名思义,研究人员采用了来自 233 种灵长类动物(Primates)、超过 800 只个体(平均每个物种 3.5 个)共 450 万个常见遗传变异来训练这个 AI 演算法,训练数据及规模甚至是现有权威数据库 ClinVar 的 70 倍。考虑到灵长类动物的蛋白质编码序列跟人类的吻合程度高达 99.6%,结合序列的进化保守性(Evolutionary conservation)和蛋白质 3D 结构,经过训练的演算法可用作预测人类基因变异的致病性。
樊博士提到,灵长类动物持续平行演化(Parallel evolution),因生活在相似环境而发展出相似的适应特徵,这导致部分疾病的基因已经透过自然选择而被淘汰。而在灵长类动物中常见的变异对人类而言普遍是良性的,这亦是建立 PrimateAI-3D 演算法的核心理念,由此,研究人员将大约 440 万个原本被定义为 VUS 的人类基因变异重新归类为「可能良性(likely benign)」,为解读基因组变异带来重大突破。演算法的研究成果于 2023 年 6 月在顶尖期刊《科学》(Science)中发表,团队发现 PrimateAI-3D 在经过训练后,其区分良性和致病性变异的能力显着优于另外 15 种已发布的机器学习演算法。
接下来樊博士以 CACNA1A 基因为例,进一步介绍研究团队如何使用深度学习解读基因变异。医学界目前已知 CACNA1A 的致病性变异会导致癫痫和自闭症等一系列神经病变和发育障碍,他表示基于自然选择演化的数据可以帮助训练模型,找出 CACNA1A 基因与癫痫的关联。这些模型能够识别致病变异,并应用于药物的开发过程。此外,在 CACNA1A 基因变异的分析中,樊博士博士展示结合 gnomAD、灵长类变异、ClinVar 数据库和 PrimateAI-3D 数据的优势,通过多项数据源的交叉分析比对,可以更准确地理解基因变异的临床意义。
以 AI 识别人类致病变异,提升药物发现及临床试验成功机率
除了准确分辨人类基因体的变异,樊博士表示 PrimateAl-3D 演算法也有助于突破标靶药物开发的关键瓶颈,从而大幅提高药物开发和临床试验的成功率。以 LDLR 和 CDSK9 这两个基因为例,它们所编码的蛋白是与高胆固醇血症和心血管疾病密切相关的生物标记物,透过利用此 AI 演算法推估变异的致病性评分(PrimateAI-3D score),研究人员发现人体内低密度胆固醇(Low-density lipoprotein cholesterol,LDL,即民众俗称的「坏胆固醇」)的水平与 LDLR 和 PCSK9 的变异相关。例如当前者的变异得出的 PrimateAI-3D 分数较高,个体血液中的 LDL 胆固醇水平会比低分者为高。至于后者,演算法结果显示带有罕见且 PrimateAI-3D 分数较高的变异的个体,其 LDL 胆固醇水平会相对较低。
这些发现将有助科学家更有效找出药物标靶,继而开发模仿自然遗传变异的药物。事实上,借助 AI 搭配遗传学分析,团队已经找出造成 LDL 异常累积的路径,让药厂能够针对当中的关键变异及生物标记物研发标靶疗法,估计相关药物(例如 PCSK9、ANGPTL3/4 或 NPC1L1 的抑制剂)的市场规模达数十亿美元计。此外,团队另一个于 2023 年在《科学》中发表的研究显示,同样针对英国生物样本库(UK Biobank)中逾 45 万个个体,PrimateAI-3D 在发现新的药物标靶方面的表现显着优于美国某药厂于 2021 年进行的研究。展望未来,团队将会与不同的大药厂以及国家级基因定序计划合作,期望将演算法的应用范围从高胆固醇这类比较普遍的健康问题拓展至罕见多发性硬化症、帕金森氏症等相较罕见的疾病。
另一方面,樊博士在演讲中也提到「多基因风险评分(Polygenic Risk Score,PRS)」带来的挑战。简单而言,PRS 就是根据个体中多个基因的变异状况,以统计学方法计算出一个人罹患某种疾病的风险。在罕见变异多基因风险评分(PRS)方面,显示罕见变异 PRS 能够有效识别疾病风险最高的个体,特别是胆固醇异常和 2 型糖尿病风险。在跨族群通用性方面,罕见变异 PRS 在非欧洲族群中的表现良好,呈现出比常见变异 PRS 更高的相关性。
AI 基因组学技术长足进步,加速精准医学时代来临
随着机器学习、人工智能和基因组学技术长足进步,樊博士及其团队还进一步开发以深度神经网络为基础的 SpliceAI,可利用 RNA 定序(RNA-seq),针对个别组织或疾病,预测相关的选择性剪接(Alternative splicing)模式、以及会扰乱基因剪接的非编码变异(Non-coding variants),并识别病人细胞中异常的剪接问题。现时 SpliceAI 的准确度可达 95%,远超过现有功能类似的 AI 演算法。以自闭症为例,硏究团队在 28 名未确诊的自闭症患者中,预测了 75% 患者中基因体发生异常剪接的位点。
另一方面,团队也持续开发新的应用,包括一款名为 perturb-seq 的基因编辑技术。其原理是将每颗细胞视为一个实验,研究人员将不同基因变异插入单个细胞,让每颗细胞都带有一个变异,接下来再以单细胞 RNA 定序分析这些变异如何影响细胞功能,并运用机器学习演算法评估每个变异的致病性。目前团队已借助此技术成功破解涉及 TP53、CDKN2A 和 SOD1 基因合共逾 5,000 个变异,当中前两者是常见的肿瘤抑制基因。樊博士认为,这项技术未来可加速罕见疾病的诊断。最后他也表示,随着精准医学时代来临,如何推动群体基因体定序,最终还是有赖人工智能的技术协助。而 Illumina 亦致力在相关领域提供领先业界的服务和解决方案,协助各大药厂加速药物开发。
参考数据:
- https://www.linkedin.com/in/kyle-kai-how-farh-md-phd-8002bba7/
- https://sapac.illumina.com/science/genomics-research/articles/primateai-3d.html
- https://www.primad.basespace.illumina.com
- https://www.ncbi.nlm.nih.gov/clinvar/
- https://www.science.org/doi/10.1126/science.abn8197
- https://www.chop.edu/conditions-diseases/cacna1a-related-disorders
- https://www.genome.gov/Health/Genomics-and-Medicine/Polygenic-risk-scores
- https://www.science.org/doi/10.1126/science.abo1131
- https://www.nature.com/articles/s41586-021-04103-z