2024-05-24 07:45来源:本站编辑
由于技术的进步,科学家们可以获得大量的数据,但为了使其发挥作用并得出结论,他们需要能够处理这些数据。
在最近发表在《基因组生物学》上的一项研究中,伦斯勒理工学院的Boleslaw Szymanski博士,Claire和Roland Schmitt计算机科学杰出教授以及网络科学与技术中心主任,及其团队发现了一种有效组织和分组各种应用数据的方法。这个过程在机器学习中被称为聚类。
他们的聚类方法SpeakEasy2: Champagne与其他算法一起进行了测试,以分析其在大量基因表达、单细胞数据、蛋白质相互作用网络和大规模人类网络数据中的有效性。大量基因表达往往是组织和疾病特异性的,与功能和表型或基因型如何与环境相互作用有关。
单单元格数据根据单元格的区别进行分组。蛋白质结合是细胞内信号传播的核心机制,识别组装成复合物的蛋白质对于确定细胞内的功能是有用的。
该团队对SpeakEasy2: Champagne和其他方法的测试表明,没有一种方法适用于所有情况,而且性能可能会有所不同。然而,SpeakEasy2在不同的数据类型中表现良好,这表明它是组织分子信息的有效方法。
Szymanski说:“我们进行了测试,以确定这些方法是否有效,即使数据包含了许多不相关的信息和新的、看不见的数据。”“我们希望通过多种方式来衡量它们的可靠性和性能,因此我们在广泛的网络中进行了测试。SpeakEasy2:事实证明,Champagne在不同的应用程序和指标中具有一致且可接受的性能。”
Rensselaer科学学院院长Curt Breneman博士表示:“优化机器学习方法以有效整合大量噪声数据对于在许多研究领域推进科学至关重要。”“Szymanski博士的工作将为细胞功能和基因表达提供新的见解,并可能阐明新的潜在药物靶点及其抑制剂来治疗疾病。”
这项工作是与拉什大学医学中心的克里斯·盖特里博士和他的团队合作完成的,这是长达十年的合作成果。八年前,他们共同开发了一种名为SpeakEasy的新型聚类算法,由于计算机科学技术的进步,生物医学数据来源大量增加,因此需要更智能、更快的软件来处理更多样化、更大量的生物医学数据。