在新算法和IT进步之间,机器现在可以学习越来越复杂的模型。 它们会生成高质量的合成数据,例如逼真的图像,甚至是虚构的人的简历。
现在 在国际期刊上发表的研究 PLOS遗传学 展示了机器学习在生物识别数据上的高级应用。该系统从现有的生物库中生成不属于真实人类但具有真实基因组特征的整个人类基因组块。
绕过隐私问题
“现有的基因组数据库是宝贵的资源 生物医学研究,“ 他说 布拉克·耶尔门,该研究的第一作者,塔尔图大学现代群体遗传学初级研究员。 “问题在于,出于合理的道德考虑,它们无法公开访问或受到漫长而冗长的执行程序的保护。这给研究人员造成了重大的科学障碍。机器生成的基因组,即“人工基因组”,可以帮助我们在安全的道德框架内克服这个问题。”
多学科团队进行了多项分析,以评估机器学习生成的基因组与真实基因组的质量。 “值得注意的是,这个基因组模仿了我们在真实人群中观察到的复杂性,并且对于大多数特性来说, 它们与用于训练我们算法的生物库的其他基因组没有区别。除了一个细节:它们不属于任何基因捐赠者。” 博士卢卡·帕加尼(Luca Pagani),该研究的资深作者之一,Mobilitas Pluss研究员。
机器生成的基因组,即“人工基因组”,可以帮助我们在安全的道德框架内克服问题
布拉克·耶尔门
基因组是真正的原始基因组还是“复制品”?
该研究还涉及评估人工基因组与真实基因组的接近程度,以验证原始样本的隐私是否得到保护。 “虽然检测数千个基因组的隐私泄露可能看起来像大海捞针,但结合多种统计措施使我们能够仔细检查所有模式。有趣的是,对复杂分散模式的详细探索反过来又导致了评估方面的其他改进。 甘 并将推动机器学习领域的发展。”医生这样说 弗洛拉·杰伊(Flora Jay),法国国家科学研究中心CNRS的研究协调员和研究员)。
总而言之,已经提供了机器学习方法 伏地,传记和 许多其他功能 对少数想象中的人类。 现在,我们也对它们的生物学有了更多的了解。 这些具有逼真的基因组的虚构人类可以充当实验台,代替未公开获得的真实基因组。