VTwins从有限样本的宏基因组数据推断致病微生物特征
该研究由康宇教授(中国科学院基因组科学与信息重点实验室、中国科学院北京基因组研究所、中国国家生物信息中心)领导。
越来越多的证据表明肠道微生物群与宏基因组(MWAS)推断的多种疾病之间存在关联,表明微生物群是控制这些疾病最有前途和最有效的策略之一。然而,从高维数据推断因果关系和强关联性非常具有挑战性,导致宏基因组研究之间因果微生物识别的一致性较低。尽管为了有效控制使人类微生物群变得复杂且高度可变的众多混杂辅助因子已经付出了巨大的努力,但在横断面研究中考虑个体异质性时仍有很长的路要走。
研究人员开发了一种开放获取工具 Virtual Twins (VTwins),它可以显着提高从复杂的宏基因组数据中识别致病微生物的能力。
VTwins采用的创新方法受到基因研究中模仿双胞胎样本的双胞胎研究的启发,可以完美控制高变异的遗传背景,显着减少所需的样本量,并且往往能够成功识别致病基因变异。研究人员选择了具有不同表型但分类学特征相匹配的配对样本,从原始群体中重建了一个新的“双胞胎”群体。通过这个简单的转变,VTwins能够有效地控制高度可变的宏基因组混杂因素,并在后续配对样本的统计测试中取得很高的显着性。
使用模拟和经验宏基因组数据集对 VTwin 进行的性能评估表明,即使样本量减少,其在识别致病特征方面也具有卓越的性能。此外,VTwins 还与其他 16 个软件进行了基准测试,并验证了其有效性和适用性。
该工具特别擅长控制不相关的混杂特征和最小化背景噪声,这是宏基因组研究中的常见挑战。这将识别疾病相关微生物特征所需的样本量减少了 10 倍,使 VTwins 成为大数据时代高维数据分析的宝贵工具。
随着宏基因组研究不断引起人们对人类微生物群与一系列疾病之间关系的关注,VTwins 等工具对于深入了解疾病发病机制至关重要。
版权声明:本文由用户上传,如有侵权请联系删除!