人类基因组的第一稿是 恰好在20年前发表。 它花费了将近XNUMX亿美元完成了将近三年的时间。 这 项目 人类基因组 它使科学家能够几乎从头到尾读取从生物学角度定义人类的 3 亿个 DNA 碱基对(或“字母”)。
这是一个划时代的事业。 该项目使新一代研究人员能够确定 癌症治疗的新目标,设计 具有人类免疫系统的小鼠 甚至建立一个 吉安网络 您可以在其中浏览整个人类基因组,就好像它是Google Maps。
第一个完整的人类基因组是由少数匿名捐赠者产生的。 目的是产生一个代表多个个体的参考基因组。 不出所料,这还不足以理解 世界各地人口的巨大多样性. 没有两个人是一样的,没有两个基因组是一样的。 如果研究人员想要更精确地了解人类的多样性,单一的人类基因组是不够的。
其中数千或数百万个必须进行排序:而这恰恰是当前正在进行的项目的目的。
了解遗传多样性
人与人之间遗传多样性的丰富性使每个人都与众不同。 但是基因改变也引起许多疾病,并使某些人群比其他人群更容易感染某些疾病。
在进行人类基因组计划时,研究人员还在对诸如以下的简单生物的完整基因组进行测序: 小鼠 , 果蝇 , 酵母 e 一些植物 。生成第一批基因组所付出的巨大努力引发了读取基因组所需技术的革命。 这项技术已经发展到今天,对整个人类基因组进行测序无需花费数年时间,也不需要花费数百万欧元。 现在需要 几天,费用不到一千欧元.
数千个基因组
技术的进步使科学家能够对来自世界各地成千上万个人的完整基因组进行测序。 诸如 基因组聚集联盟 他们正在努力收集和整理这些零散的数据。到目前为止,该小组已经收集了近 150.000 个基因组。在这个数据集中,研究人员发现了人类基因组中超过 241 亿个差异, 平均每八个碱基对有一个变异体 .
这些变化中的大多数都是非常罕见的,不会对人产生任何影响。 然而,其中隐藏的是具有重要的生理和医学后果的变体。 例如,BRCA1基因的某些变体使某些群体的妇女容易患病,例如Ashkenazi犹太人, 致癌 至 卵巢和乳房。 该基因的其他变体带有一些 尼日利亚妇女死亡率高于正常死亡率 乳腺癌。
如何识别人类基因组的这些变异?
研究人员在人群水平上识别这些类型变异的最佳方法是通过将大量人群的基因组与对照组进行比较的研究。但疾病很复杂。个体的生活方式、症状和发病时间可能存在很大差异,并且遗传对许多疾病的影响很难区分。当前基因组研究的预测能力太低,无法排除其中许多影响,因为 基因组数据不足 .
了解复杂疾病的遗传学,尤其是与种族之间遗传差异有关的遗传学,本质上是一个大数据问题。 研究人员需要更多数据。 更多数据。
1.000.000个基因组
为了满足更多数据的需求,美国国立卫生研究院发起了一项名为 我们所有人 。 该项目旨在通过调查和可穿戴设备收集遗传信息,病历和健康习惯 在过去的10年中,美国有超过XNUMX万人。 它于2018年向公众开放,此后超过270.000人提供了样本。
该项目的巨大潜力在于可以通过交叉最不同的数据进行研究。 神经科学家可以通过考虑例如运动水平来寻找与抑郁症相关的遗传变异。 肿瘤科医生可能会根据种族差异寻找与皮肤癌风险相关的变体。
凭借一百万个人类基因组,我们将拥有极其丰富的数据来发现遗传变异对疾病的影响,不仅针对个人,而且针对不同人群。
人类基因组的黑暗森林
该项目的另一个优势是,它将使科学家能够了解目前非常难以研究的人类基因组部分。 大部分的遗传研究都针对基因组中编码蛋白质的部分。 然而,这些仅代表人类基因组的1,5%.
一项有前途的研究集中在 RNA,这是一种将人 DNA 中编码的信息转化为蛋白质的分子。 但是,来自非蛋白质生产人类基因组的98,5%的RNA具有许多其他功能。 其中一些人工神经网络参与了诸如 MODO in 哪些癌症扩散 , 胚胎发育 或 女性X染色体的控制。 由于“我们所有人”项目包括基因组的所有编码和非编码部分,因此它将成为迄今为止可用于阐明这些神秘RNA的最大数据集。