在COVID-19大流行爆发后不到1年,专业人员从诊断第一例病例到接种疫苗。除其他突破外,基因组学进步被广泛认为是对疾病的快速理解和疫苗的快速部署。
自2003年对第一个全人类基因组进行测序以来,基因组学在医疗保健和生命科学行业已经变得司空见惯,导致基因组数据呈指数级增长。每个人类基因组包含的数据足以填满200本电话簿。这些数据中蕴含着改变生活的发现,包括对疾病原因的了解,这些发现可以导致治疗。但是疾病原因 - 通常是“错别字”或基因序列突变 - 可能很难找到;基因组数据受到高度监管并存储在孤立的数据湖中,进一步阻碍了研究。
面临这一挑战的是Lifebit Biotech Ltd.(Lifebit瑞威生物科技有限公司),这是亚马逊网络服务(AWS)的精选咨询合作伙伴。Lifebit与生物样本库、研究机构和制药公司合作,提供分析临床基因组数据集的解决方案,以加速药物发现、诊断、疾病监测、药物反应预测和健康模型。
解锁对孤立基因组数据的访问
Lifebit CloudOS 是一个完全联合的云操作系统,它使用 AWS 解锁临床基因组数据,用于药物和生物标志物的发现。这促进了更大的研究合作,使药物开发和疾病预防迅速增加。在COVID-19大流行开始时,Genomics England(GEL)转向Lifebit CloudOS。作为群体基因组学的先驱,GEL负责监督100,000个基因组计划,这是一个癌症和罕见病全基因组的队列。
早期的基因组学研究依赖于更少,更小的数据集,该行业可以依靠集中式技术来分析这些数据。因此,数据保护法规更加宽松,协作更易于管理。但由于基因组数据已成为历史上最大的数据来源,该系统无法支持今天的研究。“数据集中化不再可行或负担得起,”Lifebit商业副总裁Thorben Seeger说。“数据太大,无法有效移动,许多法规禁止数据离开组织、州或国家。因此,这些数据集中有80-90%无法用于研究。“GEL被广泛称为基因组学的'诺克斯堡',”Seeger说。“但是当你锁定数据时,几乎不可能访问或与其他数据组合。
Lifebit 重新设计了用于保护数据的传统模型,将其计算引擎和分析功能引入数据本身。这种新模型由 Amazon Elastic Compute Cloud (Amazon EC2) 提供支持,Amazon Elastic Compute Cloud (Amazon EC2) 是一种 Web 服务,可在云中提供安全、可调整大小的计算容量。“我们正在 AWS 上的客户自己的环境中部署我们的尖端研究,”Seeger 说。“每个用户都会收到一个洁净室环境,以分别访问和分析数据。完全托管的服务在不牺牲安全性或控制力的情况下提供了最大的研究效用。”
Lifebit 使用 AWS 高度可扩展的云功能来获得所需的计算能力,以适应数据集大小与结果之间的指数关系。该公司处理存储数据超过 100 PB 的项目,需要数十亿个虚拟 CPU 小时。“我们使用整个 AWS 计算流程来更快、更高效地运行生产管道,”Seeger 说。“这一点至关重要,因为GEL需要快速的数据处理才能更快地获得见解。
建立安全、强大的协作服务
在COVID-19大流行期间,GEL与英国政府启动了一项计划,向八家领先的制药公司以及研究机构提供队列,以推动疫苗,治疗和早期检测研究。该队列包括来自20,000名COVID-19重症病例患者和15,000名轻度病例患者的测序基因组,以及来自100,000个基因组计划的数据。然而,GEL需要一个联合数据分析系统来使该队列可供多方使用。“我们正在建立一个新的研究环境,我们需要一家能够在7-8周内上线的公司,”GEL首席商务官Parker Moss说。
Lifebit 基于 GEL 现有的 AWS 架构构建,可在 3 个月内交付完全实时的系统。如今,制药公司和研究人员可以访问队列并连接自己的私有数据集。“用户的外部数据不会进入GEL环境,”Moss说。“但是,通过联合链接,您可以像研究数据在一个地方一样进行研究。这是一个非常强大的价值主张。该系统可节省时间并提供额外的保护。“数据保留在客户的环境中,所有 AWS 安全功能都能确保数据安全,”Seeger 说。
在系统上,研究人员使用自动化工具在几秒钟内安全地查询、分析和协作处理大型数据集。“我们正在弥合安全性和可用性之间的二分法,”Seeger说。“这促进了GEL等公共机构,其他领先群体,研究机构和私人机构之间的全球合作。
在 AWS 上以基因组学的速度进行扩展
Lifebit CloudOS使基因组研究更容易获得。“云与我们的数据环境相结合,是伟大的民主化者,”Seeger解释说。“数以百万计的研究人员可以按需访问和执行大数据分析 - 只有少数训练有素的高性能计算专家以前可以做到这一点。
至关重要的是,Lifebit 客户及其用户使用 Amazon Simple Storage Service (Amazon S3) 获得几乎无限的存储,该服务可提供行业领先的可扩展性、数据可用性、安全性和性能。一个完整的人类基因组相当于120-300 GB的数据,Lifebit正在对超过1000万名患者运行数据库进行模拟,这些患者具有数千个临床和表型变量。“连接全球数据集正在推动种族基因组多样性,”Seeger说。“这有助于我们了解一般的疾病,但也使我们能够迎合以前服务不足的人群。
在 AWS 上,Lifebit 提供了一个系统,该系统促成了生命科学史上最重要的云计算交易之一。“AWS 在医疗保健和生命科学市场的普及非常有帮助,”Seeger 说。“我们已经从 AWS 看到了难以置信的灵活性,它在伦敦地区帮助我们设置了 GEL 闻名遐迩的安全。AWS 的规模和全球影响力对于我们追求大型政府计划具有巨大的战略意义。
加速药物研究和疾病预防方面的全球合作
通过使用 AWS,Lifebit 使 GEL 能够快速为 COVID-19 数据和分析提供研究环境。现在,Lifebit正在与各国讨论如何结合数据集以促进研究成果并加快癌症和罕见疾病的药物开发。“我们的联合分析系统不仅只是为了服务一个国家或一个疾病队列的单一目的而存在,”Seeger说。“它与世界各地的其他队列合作,使这个科学领域成为有史以来最具协作性的领域。
Lifebit Biotech是人口基因组学软件和人工智能药物发现的全球领导者。它在北美,欧洲,中东,非洲和亚太地区开展业务,为人口基因组学计划,生物银行,研究和制药公司提供支持。
◊ 在不到3个月的时间内推出联合数据分析系统
◊ 处理超过 100 PB 的项目数据
◊ 支持对全球不同数据集的协作研究
◊ 遵守数据隐私法规
◊ 在客户自己的环境中执行分析
◊ 高效编排数十亿个 CPU 小时
◊ 使生物信息学分析的可及性民主化
◊ 实现可持续的自筹资金商业模式
(内容来源网络,如有侵权请联系删除)