Sentieon项目文章 | 儿童罕见病队列研究:整合研究与临床基因组学计划

简介: 不同的研究方案和各异的临床及研究制度下收集的基因组数据存在的区别,因此创建协调统一的数据库是有益的,尤其在儿科罕见疾病领域。且能解决研究型医院在研究和临床实践时面临诸多的挑战,能满足不同环境的独特要求和目标,包括众多利益相关者的需求。为此研究团队使用通过设计、样本收集、基因测序、表现分析和数据处理等方法创建了一个共享的GORdb数据库。在此过程中Sentieon被用于读取比对、深度计算、重新比对、重校准和变异检测。数据库目前共计8516个外显子组和112个基因组数据,在168个基因中识别出253个重要变异,在29个基因中发现43个变异体的临床确认。

文献解读-Multi-omics2.png

关键词:罕见病;数据库;精准医疗;


引言

不同的研究方案和各异的临床及研究制度下收集的基因组数据存在的区别,因此创建协调统一的数据库是有益的,尤其在儿科罕见疾病领域。且能解决研究型医院在研究和临床实践时面临诸多的挑战,能满足不同环境的独特要求和目标,包括众多利益相关者的需求。

为此研究团队使用通过设计、样本收集、基因测序、表现分析和数据处理等方法创建了一个共享的GORdb数据库。在此过程中Sentieon被用于读取比对、深度计算、重新比对、重校准和变异检测。

数据库目前共计8516个外显子组和112个基因组数据,在168个基因中识别出253个重要变异,在29个基因中发现43个变异体的临床确认。

图片1.png

图1 文献介绍

今天的文献解读专栏给大家带来的是2020年发表在npj genomic medicine期刊,被引用高达52次的佳作“Children’s rare disease cohorts: an integrative research and clinical genomics initiative”。

浅析文章,给做临床基因组学的老师们一些参考。

材料与方法学

研究设计与样本收集

研究第一阶段从2018年10月1日持续至2019年9月30日,共招募2441名参与者。通过血液采集(n=146)和口腔拭子(n=2093)来收集样本。另有72名参与者进行临床测序,130名参与者未完成样本收集。

测序与质控流程

GeneDx使用IDT xGen探针进行DNA提取,全外显子组测序平均覆盖度达100x,95%以上的靶区达到20x的覆盖度。GeneDx医学外显子组在20x覆盖度下实现99.4%的靶区覆盖,平均深度为114x。

所有测序数据要满足:过滤后测序产量须超过4GB、与hg19的比对率需高于95%、10x靶区覆盖率需达到90%、平均靶区覆盖度要求50x、重复读数比例需低于30%、且读数质量指标需达到80%。

生物信息学分析流程

测序完成后,原始WES数据FASTQ文件上传至BCH的AWS账户。数据处理首先使用Skewer v0.2.1进行接头修剪,FastQC v0.11.7进行FASTQ分析,BBMap v37.97计算碱基质量。Sentieon v201808.03执行读取比对、深度计算、重新比对、重校准和变异检测步骤。同时使用Verifybamid 1.1.3检查污染,GATK 4.1.2.0计算bin的读数。最后WuXi NextCODE GORpipe 4.3.0将数据转换为GOR格式,VEP 96.2进行注释。

表型分析与数据处理

表型数据主要来源于研究记录的手动采集,其次是临床记录和非结构化EHR。使用CLiX Focus系统从病历中提取HPO术语,该系统经过优化可达到85%的召回率。

平均每位患者有510.8份临床病历,CLiX Focus平均可提取191.9个HPO术语,包括父级术语。通过频率过滤后,最终每位患者平均获得45.9个HPO术语。

数据治理与管理

建立了完整的数据治理体系,包括访问控制和数据同步机制。通过AWS的IAM策略控制数据访问,使用Python网络服务器管理REDCap数据库的定期同步。所有系统都实施严格的用户认证和数据隔离措施。数据质量通过多重验证方法保证,包括自动错误报告和跨数据集验证。处理后的数据存储在AWS S3存储桶中,支持多个机构数据库的访问需求。


研究结果

CRDC项目实施的基础工作

波士顿儿童医院(BCH)在CRDC第一阶段主要致力于建立基于医院的基因组数据分析体系。通过基因组蓝带委员会的建议和机构资金支持,于2018年启动。经过全院调查和评估,最初选择癫痫和IBD两个队列作为试点,随后扩展到15个儿童期发病的孟德尔疾病队列。项目实施依靠研究团队、机构领导层、研究计算组等多方协作完成。

屏幕截图 2025-07-02 160655.jpg

图2 样本收集
来自疾病队列入组患者的样本。图表包含每周入组计数(根据其在CRDC中的持续时间标准化的平均入组数);过去一年在BCH就诊的具有相同ICD10代码的儿科患者总数;通过CRDC在GeneDx提交测序的个体数量;以及受队列疾病影响的已测序参与者数量。

数据收集与标准化流程建立

为实现大规模数据整合,项目建立了符合GA4GH国际标准的知情同意框架。该框架在保护参与者权益的同时,支持样本收集、数据使用和机构间合作。招募工作结合了线上线下多种方式,样本采集遵循CLIA标准进行全外显子组测序。同时建立了标准化的表型数据收集系统,整合了手动记录、电子病历、问卷调查等多个来源的信息。

屏幕截图 2025-07-02 160732.jpg

图3 从研究到临床的工作流程
有或没有既往临床检测的患者被纳入协调一致的研究方案。为患者提供标准化的样本收集机制,大多数患者同时同意加入Precision Link生物样本库以支持额外剩余临床样本的收集。患者样本由我们的测序提供商(GeneDx)进行CLIA测序,数据返回AWS后载入CRDC基础设施进行分析。一旦研究团队确定候选变异,分析人员就与临床医生合作,从测序提供商处订购临床确认。临床确认结果返回BCH,添加到患者病历中,并传达给患者。

基因组分析平台的构建

项目开发的基因组分析实验室系统(GLS),将表型和基因型数据整合到GORdb数据库中。系统通过经验证的ETL过程从EDC获取并迁移表型信息到GORdb,同时将去标识化的结构化EHR数据加载到整合生物学与临床信息学(i2b2)星型模式中,包含诊断、药物、程序等多维度临床数据。

在数据处理方面,采用CLiX Focus软件对462种非结构化临床记录进行自然语言处理,提取HPO术语。通过对775名同时具有CLiX Focus和手动注释HPO术语的患者样本分析,证实了自动化处理的效率优势。测序数据经过生物信息学管道处理后,通过数据导入API加载到GORdb,实现与参与者表型数据的统一管理。

系统架构上,BCH的各个系统通过多种方式与GLS集成,而WuXi NextCODE则负责在AWS中管理GORdb的后端基础设施。研究团队主要通过图形用户界面与系统交互,利用各种功能模块进行分析。这些模块不仅支持罕见变异分析、关联测试等基础功能,还可通过GORdb查询开发自定义模块,扩展研究能力。

GORdb的核心是GOR编程语言,将类SQL的基因组查询与shell脚本相结合,并提供丰富的标准库支持,使得研究团队能够方便地进行数学统计分析和大型数据操作,同时支持模块打包共享,促进跨组织协作。系统还建立了变异排除黑名单,通过去除非致病性和队列特异性常见变异,优化了研究分析流程,提高了研究效率。

41525_2020_137_Fig3_HTML.png

图4 基因组学习系统的数据流程图
原始数据通过二级管道处理成协调数据,通过数据导入API输入GORdb。还整合了来自EDC和EHR的表型数据。内置的GORdb查询以及机构开发的查询在合并数据上运行,可以通过调用GORdb API或通过WuXi NextCODE用户界面执行。原始和协调数据也可供其他分析系统和BCH研究人员使用。这些系统的信息被反馈到GORdb。GLS的各个方面通过Python网络服务器连接,该服务器执行与GLS组件之间的数据传输,向研究人员发送新数据可用性的自动提醒,并向生物信息学家发送潜在元数据错误的警告(例如,重复受试者入组)。

初步研究成果

建立多学科协作模式和自动化分析流程,整合了研究团队的疾病专业知识与生物信息学支持。开发了结合Emedgene、CLiX和WuXi NextCODE等多个工具的综合工作流程,采用类似Broad孟德尔基因组学中心的并行审查方式,实现了高效的变异识别和分析。

在初步数据分析中,研究团队在168个基因中识别出253个重要变异,其中约20%为已知致病变异,67%是已知致病基因中的新发现变异,剩余13%属于表型扩展。值得注意的是,约40%的变异与药物、疾病、基因相互作用或现有临床试验相关,展现出重要的临床应用价值。通过Emedgene自动分类系统的评估,20%的变异被确定为致病性或可能致病性。

在临床验证方面,在29个基因中实现了43个变异体的临床确认,涉及32名患者。这些变异体均为全新遗传学诊断,同时确立了孟德尔遗传病病因关联。特别重要的是,86%的临床确认结果与Emedgene自动分类结果保持一致,这些发现对于表现非典型或症状轻微、通常不会接受临床测序的患者尤为重要,为他们提供了准确的遗传诊断。

此外,CRDC项目促进了新的科研合作和功能研究的开展。帮助患者家庭获得更广泛的临床服务,包括临床试验参与机会和专科多学科诊疗等。

屏幕截图 2025-07-02 160833.jpg

图5 使用Emedgene的RC变异注释工作流程
使用手动整理的HPO术语以及CLiX Focus派生的HPO术语评估Emedgene优先排序变异的流程图工作流程。

Sentieon 软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。截至 2023 年 3 月份,Sentieon 已经在全球范围内为 1300+用户提供服务,被世界一级影响因子刊物如 NEJM、Cell、Nature 等广泛引用,引用次数超过 700 篇。此外,Sentieon 连续数年摘得了 Precision FDA、Dream Challenges 等多个权威评比的桂冠,在业内获得广泛认可。


讨论

微信图片_20250702164355.png

图6 文献讨论

项目成果与意义

通过建立跨机构的统一同意框架、标准化数据收集流程和综合分析平台(GLS),CRDC 项目显著加速了基因组数据在研究和临床治疗中的应用。GLS 整合了 8,516 例外显子组和 112 个基因组数据,成为目前最全面的儿科罕见病基因组数据库。

技术平台与协作

GORdb 数据库支持大规模数据分析,能够满足不同的应用场景需求。并与第三方进行合作,集成先进技术构建数据库。


总结

研究充分展示了该项目在推进精准医疗实践中的重要价值,为未来的基因组研究和临床应用提供了有力的范例,还显著加速了罕见病基因诊断与治疗开发进程。

目录
相关文章
|
小程序 前端开发 容器
微信小程序隐藏右侧滚动条并可以滚动
微信小程序隐藏右侧滚动条并可以滚动
599 0
|
8月前
|
前端开发
如何解决前端工程化中出现的版本冲突问题?
如何解决前端工程化中出现的版本冲突问题?
331 61
|
7月前
|
机器学习/深度学习 编解码 物联网
极致的显存管理!6G显存运行混元Video模型
混元 Video 模型自发布以来,已成为目前效果最好的开源文生视频模型,然而,这个模型极为高昂的硬件需求让大多数玩家望而却步。魔搭社区的开源项目 DiffSynth-Studio 近期为混元 Video 模型提供了更高效的显存管理的支持,目前已支持使用24G显存进行无任何质量损失的视频生成,并在极致情况下,用低至 6G 的显存运行混元 Video 模型!
538 12
|
12月前
|
安全 Java Linux
攻防世界:Misc 解析(一)
攻防世界:Misc 解析(一)
|
8月前
|
Ubuntu Linux Shell
Sentieon软件快速入门指南
Sentieon为纯CPU计算加速软件,完全适配主流CPU计算架构:Intel、AMD、海光等X86架构CPU,华为鲲鹏、阿里倚天等ARM架构CPU。可灵活部署在实验室单机工作站、HPC集群、超算中心和云计算中心,保持同一套流程下不同规模数据计算结果的一致性。Sentieon软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。
309 4
Sentieon软件快速入门指南
|
6月前
|
算法 安全 数据挖掘
文献解读-Effectiveness of mRNA BNT162b2 COVID-19 vaccine up to 6 months in a large integrated health system in the USA: a retrospective cohort study
这项研究证实了BNT162b2疫苗在预防COVID-19,尤其是严重病例方面的有效性。虽然疫苗对感染的保护作用随时间有所减弱,特别是对Delta变种,但对住院的保护在研究期间仍保持稳定。且研究结果表明,疫苗效力的下降主要是由于时间因素,而非Delta变种的免疫逃逸。
83 8
|
8月前
|
机器学习/深度学习 测试技术 算法
文献解读-DNAscope: High accuracy small variant calling using machine learning
在这项研究中,研究组证明了DNAscope在不同样本和不同覆盖度水平下都能达到比DNAseq更高的准确性。使用GA4GH分层区域进行的分层分析,能够确认DNAscope在大多数分层区域中都具有高准确性,并突显了DNAscope在插入缺失(indels)和包含变异检测较困难的基因组区域的分层中具有更高的准确性。DNAscope结合了GATK's HaplotypeCaller中使用的成熟数学和统计模型,以及用于变异基因型分析的机器学习方法,在保持计算效率的同时实现了卓越的准确性。
144 3
文献解读-DNAscope: High accuracy small variant calling using machine learning
|
9月前
|
算法 数据挖掘 Shell
「毅硕|生信教程」 micromamba:mamba的C++实现,超越conda
还在为生信软件的安装配置而烦恼?micromamba(micromamba是mamba包管理器的小型版本,采用C++实现,具有mamba的核心功能,且体积更小,可以脱离conda独立运行,更易于部署)帮你解决!
242 1
|
9月前
|
算法 数据挖掘 数据处理
文献解读-Sentieon DNAscope LongRead – A highly Accurate, Fast, and Efficient Pipeline for Germline Variant Calling from PacBio HiFi reads
PacBio® HiFi 测序是第一种提供经济、高精度长读数测序的技术,其平均读数长度超过 10kb,平均碱基准确率达到 99.8% 。在该研究中,研究者介绍了一种准确、高效的 DNAscope LongRead 管道,用于从 PacBio® HiFi 读数中调用胚系变异。DNAscope LongRead 是对 Sentieon 的 DNAscope 工具的修改和扩展,该工具曾获美国食品药品管理局(FDA)精密变异调用奖。
86 2
文献解读-Sentieon DNAscope LongRead – A highly Accurate, Fast, and Efficient Pipeline for Germline Variant Calling from PacBio HiFi reads
|
10月前
|
算法 数据挖掘
文献解读-Consistency and reproducibility of large panel next-generation sequencing: Multi-laboratory assessment of somatic mutation detection on reference materials with mismatch repair and proofreading deficiency
Consistency and reproducibility of large panel next-generation sequencing: Multi-laboratory assessment of somatic mutation detection on reference materials with mismatch repair and proofreading deficiency,大panel二代测序的一致性和重复性:对具有错配修复和校对缺陷的参考物质进行体细胞突变检测的多实验室评估
86 6
文献解读-Consistency and reproducibility of large panel next-generation sequencing: Multi-laboratory assessment of somatic mutation detection on reference materials with mismatch repair and proofreading deficiency