DNA就像一串珍珠,被包裹在一个微小的空间里。几十年来,我们一直在研究这些珍珠的序列:构成遗传密码的A、T、C和G碱基。但真正重要的是这串珍珠的折叠方式。环状结构、折叠和三维结构决定了哪些基因被激活,哪些基因保持关闭状态。 混合-HIC è 第一个多模态人工智能模型 它能够解读这种隐藏的结构。没错,就是三维基因组。它通过整合两种信息来实现这一点:一种是显示DNA哪些部分在空间中相互接触的图谱(称为Hi-C),另一种是指示DNA可及位置的化学信号(表观基因组标记)。这意味着什么呢?让我们一起冷静地来看一下。
三维基因组并非细节:它是机制本身。
肝细胞和神经元拥有相同的DNA,但它们的功能却截然不同。 秘密不在于顺序。 但形式上。 当DNA形成时 染色质环染色质环使基因组中相距较远的区域更紧密地连接在一起。染色质环就像一座分子桥,连接着一个开关和它应该控制的基因。这个开关的形状就是染色质环。如果染色质环没有形成,基因就保持关闭状态。如果染色质环形成的位置错误,基因就会在不应该激活的时候被激活。
迄今为止,研究三维基因组就像是用来自不同盒子的碎片拼凑拼图。科学家们…… 联系地图 DNA图谱显示了哪些区域在空间上相互接触。他们还拥有…… 表观基因组痕迹这些数据揭示了DNA“开放”并可供读取的位置。但这些数据是分别用针对特定任务的方法进行分析的。实际上,整体情况被忽略了。

MIX-HIC 学习两种语言以及两种语言的细微差别。
的团队香港科技大学 开发了一种彻底改变方法的系统。MIX-HIC 已在超过 1,2万对样本 Hi-C图谱和表观基因组特征:迄今为止为3D基因组研究创建的最大数据集。其架构十分巧妙:系统并非简单地“合并”不同类型的数据,而是学习识别两种模态共有的特征以及每种模态的独特特征。这就像一位不仅精通两种语言,而且还理解文化细微差别的翻译。
在测试中,MIX-HIC 在三个关键任务中都优于所有现有方法。 第一: 预测DNA在不同细胞类型中如何以三维方式组织自身,改进幅度可达 9,3% 与以往最好的系统相比。 第二: 以前所未有的精度识别染色质环。 第三: 预测基因的活性,这是了解细胞功能的重要信息。
当数据缺失时,想象一下
Hi-C 数据价格昂贵且难以获取,而且常常缺失。MIX-HIC 也解决了这个问题:凭借其广泛的训练,即使只有表观基因组痕迹,该系统也能“想象”出 3D 基因组的组织结构。这就像侦探凭借从数千个先前案例中汲取的经验,在线索寥寥的情况下重建犯罪现场。这种“统一语义”方法使系统能够在保持预测准确性的同时,填补实验数据中的空白。当然,人工监督是必要的——它并非神谕——但节省的时间是巨大的。
疾病并非仅仅是错误的序列。
许多疾病(从癌症到罕见的遗传性疾病)并非由简单的DNA序列错误引起,而是由三维基因组的结构异常所致。例如,一个对抑制肿瘤至关重要的基因可能因为三维结构阻碍了调控因子到达而“关闭”。或者,突变可能不会直接改变基因本身,而是改变远程调控该基因的染色质环。
借助 MIX-HIC,研究人员现在可以分析特定患者的 3D 基因组,以识别这些结构问题。 这为更精准的诊断铺平了道路: 准确了解患者DNA结构究竟出了什么问题。以及制定靶向治疗方案,不仅要考虑哪些基因发生了突变,还要考虑整个基因组结构是如何改变的。 正如个性化营养领域已经发生的那样基因组学和人工智能正在彻底改变我们护理健康的方式。

3D基因组:增强而非取代现有能力
该系统加速了基础研究:研究人员无需针对每种细胞类型进行耗时耗资的实验,即可利用 MIX-HIC 虚拟探索数千种场景,从而筛选出最有希望进行实验室测试的方案。它使精准基因组学的应用更加普及,速度更快,成本更低。用于模拟这些微弱信号的方法还可应用于天文学、行星防御以及监测人类技术对太空环境的影响。
MIX-HIC 就是一个例子,它展示了人工智能如何增强人类在科学研究中的能力。它不会取代科学家,而是为他们提供了一种工具,帮助他们破解生物学中最复杂的谜题之一:我们基因组的三维结构如何协调细胞生命的交响乐。
当音乐走调时,或许他可以告诉我们该如何让它恢复和谐。
