用于生物分子科学的大型基础模型现已透过NVIDIA BioNeMo提供
全球各地的科学家现在可以使用了解所有生命领域的遗传口令的强大全新基础模型Evo 2。Evo 2是由非营利生物医学研究组织Arc Institute与史丹佛大学合作,在NVIDIA DGX Cloud平台上所开发,是目前规模最大的公开基因组数据人工智能(AI)模型。
Evo 2在NVIDIA BioNeMo平台上供全球开发人员使用,包括以NVIDIA NIM微服务的方式进行简易、安全的部署AI。
Evo 2模型使用近9万亿个核苷酸(DNA和RNA的组成部分)所组成的庞大数据集训练出,可用于生物分子研究应用,包括根据基因序列预测蛋白质的形式和功能、识别用于医疗保健和工业应用的新型分子,以及评估基因突变如何影响其功能。
Arc Institute共同创始人暨核心研究员、加州大学柏克莱分校生物工程助理教授徐安祺(Patrick Hsu)表示:「Evo 2代表着生成式基因组学的重要里程碑。透过推进我们对这些生命基本构成元素的了解,我们能在医疗保健和环境科学领域寻求目前难以想像的解决方案。」
适用于Evo 2的NVIDIA NIM微服务可让使用者产生各种生物序列,并能设定里调整模型参数。对于想要使用自己专属数据集来微调Evo 2的开发人员,可以透过开源的NVIDIA BioNeMo框架下载模型,该框架是一系列用于生物分子研究的加速运算工具。
史丹佛大学化学工程助理教授、Dieter Schwarz基金会史丹佛大学数据科学系研究员,同时也是Arc Institute创新研究员的Brian Hie表示:「设计新的生物学传统上是一个费力、难以预测且需要用到大量人工的过程。有了Evo 2,我们让研究人员更容易进行复杂系统的生物设计,只要用到比以前短上不少的时间,就能创造出有益的新进展。」
推动复杂的科学研究
Arc Institute在6.5亿美元的捐助资金下于2021年成立,透过资助科学家多年期资金,让科学家专注于创新研究,解决科学领域长期面对的难题,而不用忙于申请资金。
Arc Institute的核心研究人员可以获得最先进的实验室,以及为期8年且可续约的资金,并可同时在与该单位合作的大学之一任教,包括史丹佛大学、加州大学柏克莱分校和加州大学旧金山分校。
透过结合这个独特的研究环境与NVIDIA的加速运算专业技术与资源,Arc Institute的研究人员可以进行更复杂的专案、分析更大的数据集,并且更快的取得成果。该单位的科学家专注于癌症、免疫功能障碍和神经退化性疾病等领域。
NVIDIA透过Amazon Web Services(AWS)上的NVIDIA DGX Cloud让科学家们能够使用2,000个NVIDIA H100 GPU,加快进行Evo 2计划。
DGX Cloud提供短期使用大型运算丛集的能力,使研究人员得以灵活进行创新。这个完全托管的AI平台包含NVIDIA BioNeMo,以NVIDIA NIM微服务和NVIDIA BioNeMo Blueprints的形式提供最佳化的软件。
NVIDIA研究人员与工程师同样在AI扩展与最佳化方面密切合作。
应用于生物分子科学
Evo 2可以提供对DNA、RNA和蛋白质的深入了解。该模型经过对植物、动物和细菌等生命领域各个物种的训练,可以应用于医疗保健、农业生物技术和材料科学等科学领域。
Evo 2采用新颖的模型架构,可以处理长序列的遗传信息,最多可达100万个词元(token)。这种对基因组的更深认识可以让科学家明白生物遗传口令里距离较远的部分与细胞功能、基因表现和疾病机制之间的关系。
徐安祺表示:「一个人类基因里有着数千个核苷酸,如果要让AI模型分析这麽复杂的生物系统如何运作,就必须一次处理基因序列中的最大可能部分。」
在医疗保健和药物探索方面,Evo 2模型可以帮助研究人员了解哪些基因变异与特定疾病有关,并设计出新型分子,精确地针对这些区域来治疗疾病。像是史丹佛大学与Arc Institute的研究人员发现,在测试与乳癌有关的基因BRCA1时,Evo 2能以90%的准确率预测先前未识别的突变是否会影响基因功能。
在农业方面,这个模型可以提出对植物生物学的洞察,帮助科学家开发更能适应气候或是更营养的农作物品种,从而帮助解决全球粮食短缺的问题。而在其他科学领域,Evo 2可应用于设计生物燃料或工程蛋白质,以分解油脂或塑胶。
Arc Institute技术长Dave Burke表示:「部署像Evo 2这样的模型,就如同将一具强大的新望远镜送往宇宙最遥远的地方。我们知道这里有着无限的探索机会,但是我们还不知道会发现什麽。」
如欲获得更多有关Evo 2的信息,请参阅NVIDIA技术博客与Arc的技术报告。请参阅有关软件产品信息的公告。