登录遇到问题
Q:长时间接收不到验证码怎么办?
A:您可以拨打我们的客服热线400-183-1832进行语音辅助
没找到相关问题?点此联系客服
选择国家地区
指南者留学logo
指南者留学
选校/定位/规划 必备工具
打开App
斯坦福大学 | 利用机器学习预测罕见疾病
指南者留学 2023-02-08 16:01:33
阅读量:1366

生物库——包含遗传和健康信息的数据库——为研究人员提供了探索疾病和研究遗传和环境对疾病轨迹的贡献的能力。这些调查使我们能够就饮食与疾病之间的关系、家庭规模和COVID严重程度等因素得出结论,为指导研究人员、临床医生和患者提供了有价值的见解。

 

但生物银行的作用取决于其中数据的数量和质量。斯坦福大学博士生陆洋解释说,在患者数据集中,信息不完整经常是一个问题。“例如,我们可能知道患者曾因II型糖尿病接受过治疗,”Yang说,“但如果他们从未在医院住院治疗过,那么他们的数据中可能就没有' II型糖尿病'一词。”对于正在进行疾病研究和寻找可能导致新突破的模式的研究人员来说,这种缺失的信息是一个重大障碍。

 

为了解决这个问题,杨与斯坦福大学博士后王生和拉斯·奥特曼合作,拉斯·奥特曼是斯坦福大学HAI的副主任,也是生物工程、遗传学、医学、生物医学数据科学以及计算机科学的教授,他们创建了一个模型,可以预测一套全面的诊断代码,也称为表型代码,适用于英国生物样本库的所有患者。这家银行拥有来自英国的50万参与者的数据,其中包括罕见疾病患者。通过创建POPDx(一种用于疾病识别的机器学习框架),研究团队创建了一个模型,根据Yang的说法,该模型“产生一个人可能患有某些疾病或表型代码的概率”。

 

事实上,POPDx在预测常见和罕见疾病(包括训练数据中不存在的疾病)方面优于现有模型。奥尔特曼说,这是一个重要的发现。“虽然大多数使用深度神经网络的机器学习方法都需要大量的训练,但我们很高兴我们使用文本和分类学等先验知识的方法使我们能够识别出测试集中的一些疾病,尽管我们以前从未在训练中见过它们。这一点很重要,因为虽然医学领域有大量数据,但规模与大型it公司不同,因此我们开发出可以处理稀疏数据的方法,并能很好地帮助患有罕见疾病的患者,这一点至关重要。”

 

来自真实患者的真实数据


在着手这项研究时,Yang考虑了第二作者Wang之前在细胞分类方面的工作。在这项研究中,Wang使用细胞本体为测试集中的所有细胞预测了一个正确的细胞类型。杨希望对POPDx采取类似的方法,但针对的是疾病。“我认为同样利用人类疾病本体论中的疾病关系来解决疾病识别问题会很酷。”而王的研究是一对一的。-所有分类问题,其中只有一种细胞类型被预测,杨需要多个标签。她说:“每个病人都可能患有多种疾病,所以我们把它作为一个多标签、多分类的问题来处理。”

 

杨绛作品的另一个关键不同之处在于她所使用的信息的广度。POPDx模型查看了大量的患者数据,从人口统计信息和患者问卷到医疗检查和电子病历数据。它甚至可以从物理数据和实验室测试中提取信息。她说:“在此之前,大多数现有模型都需要精心策划的数据集,这意味着它们可能无法研究我们能够通过工作研究的丰富特征。”杨的大规模工作直接转化为该模型可以预测的广泛疾病代码。“通常研究是针对某个领域的,比如心脏病,所以他们只会看相关的信息或代码。但在我们的研究中,我们试图提供英国生物银行参与者的完整资料。”

 

尽管数据集很小,但仍能预测疾病


POPDx模型的工作原理是寻找患者数据和疾病信息之间的关系,使用自然语言处理和人类疾病本体论来做出概率决策。“该模型面临的最大挑战来自于我们在训练中没有看到或几乎没有数据的疾病。正如我们所知,大多数ML模型依赖于大型数据集,但其中一些疾病没有数据。”Yang说。

 

POPDx在有限或甚至没有数据的情况下的稳定性能是非常强大的,避免了对庞大数据集的需求。Yang能够将未见疾病和罕见疾病的AUPRC(模型的精确度量)提高218%和151%。根据杨教授的说法,这意味着如果一个临床团队需要识别低流行率疾病的患者,“我们的模型平均上将增加发现这些阳性病例的可能性。以前,他们必须检查生物样本库中的大量患者,但现在他们可以筛选更少的患者,以发现可能的病例。”POPDx识别罕见疾病的能力为临床医生和研究人员研究这些疾病提供了一个更好的起点。

 

Yang指出的一个挑战是英国生物银行的人口结构倾斜,其中56%是女性,大多数是白人,平均年龄为71岁。但生物库缺乏多样性与数据的关系较小,而与广泛的医疗保健服务有关。“问题是,如果有人无法获得医疗保健,我们就没有他们的数据。”杨说。研究人员通过介绍疾病之间的等级和关系的背景信息来解决这一问题,这使模型在处理不熟悉的疾病时得到了提升。

 

Yang认为,这种策略也可能为模型增加了一些随机性,并减轻了偏差。Yang的希望是未来会有更多的基础设施来实现跨多个生物库的数据集成,从而实现更多样化的数据集。

 

疾病预测的未来


当她展望未来时,杨对患者数据的时间序列分析感兴趣,这不仅可以观察患者患病的概率,还可以观察患者可能在生命中的什么时候患病。另一个可能的途径是将表型和基因型数据整合到模型中,这将使研究人员对疾病有一个比现在更全面的视角。无论下一步如何,杨致远都致力于建立适用于所有人的包容性模式。“无论是患者还是研究人员,获取数据都是至关重要的。”杨说。

 

斯坦福人工智能研究院的使命是推进人工智能研究、教育、政策和实践,以改善人类状况。学习更多的知识。

 

注:本文由院校官方新闻直译,仅供参考,不代表指南者留学态度观点。

老师
我是 的搭档
联系我
已为您分配留学咨询顾问老师 ,请等待顾问老师和您联系。
如需更换老师进行咨询,请联系客服
400-183-1832
预约咨询
电话咨询