计算机如何将症状与疾病联系起来?
麻省理工学院的一项新研究发现了“健康知识图”,该图显示了症状与疾病之间的关系,旨在帮助临床诊断,可能无法满足某些情况和患者人群的需求。结果还提出了提高性能的方法。
健康知识图通常由专家临床医生手动编辑,但这可能是一个费力的过程。最近,研究人员尝试从患者数据自动生成这些知识图。麻省理工学院的团队一直在研究这些图表在不同疾病和患者人群中的表现。
在2020年太平洋生物计算研讨会上发表的一篇论文中,研究人员基于真实数据集评估了自动生成的健康知识图,该数据集包含270,000多名患有近200种疾病和770多种症状的患者。
该团队分析了各种模型如何使用电子病历(EHR)数据(包含患者的病历和治疗历史)来自动“学习”疾病-症状关联的模式。他们发现,对于患有高百分比的极高年龄或年轻患者,或高百分比的男性或女性患者的疾病,该模型的效果特别差-但为正确的模型选择正确的数据并进行其他修改可以改善性能。
该想法旨在为研究人员在使用电子健康记录构建健康知识图时有关数据集大小,模型规格和性能之间的关系提供指导。这可能会产生更好的工具,以帮助医生和患者进行医疗决策,或者寻找疾病和症状之间的新关系。
“在过去的10年中,医院使用EHR的人数猛增,因此我们希望挖掘大量数据来学习这些疾病-症状关系图,”第一作者Irene Y. Chen说。电气工程与计算机科学系(EECS)。“至关重要的是,我们必须仔细检查这些图形,以便将它们用作诊断工具的第一步。”
麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究生Monica Agrawal与Chen一起发表论文。贝丝以色列女执事医疗中心(BIDMC)的史蒂芬·霍恩(Steven Horng);EECS教授David Sontag,他是CSAIL和医学工程与科学研究所的成员,也是临床机器学习小组的负责人。
患者和疾病
在健康知识图中,有数百个节点,每个节点代表不同的疾病和症状。边缘(线)将诸如“糖尿病”之类的疾病节点与诸如“口渴”之类的相关症状节点相连接。谷歌在2015年推出了自己的版本,该版本由数名临床医生在数百小时内人工策划,被认为是黄金标准。现在,当您搜索疾病时,系统会显示相关症状。
在2017年《 自然科学报告》的 一篇论文中,Sontag,Horng和其他研究人员利用了他们当前研究中相同的270,00名患者的数据(这些数据来自BIDMC的急诊科,在2008年至2013年之间)来建立健康知识图。他们使用了三种模型结构来生成图,分别称为逻辑回归,朴素贝叶斯和噪声OR。研究人员使用Google提供的数据,将自动生成的健康知识图与Google健康知识图(GHKG)进行了比较。研究人员的图表效果非常好。
在他们的新工作中,研究人员进行了严格的错误分析,以确定模型对哪些特定患者和疾病的治疗效果不佳。此外,他们还尝试了从急诊室以外向更多的数据扩展模型。
在一项测试中,他们将数据分解为疾病和症状的亚群。对于每种模型,他们研究了疾病和所有可能症状之间的联系,并将其与GHKG进行了比较。在论文中,他们将调查结果分为50种表现最差的疾病和50种表现最差的疾病。表现低下的例子是多囊卵巢综合征(影响女性),过敏性哮喘(非常罕见)和前列腺癌(主要影响老年男性)。高绩效者是较常见的疾病和病症,例如心律不齐和足底筋膜炎,这是组织沿脚肿胀的原因。
他们发现,对于几乎所有疾病和患者,总的来说,有噪声的OR模型对错误的抵御能力最强。但是,在所有具有多种同时发生的疾病和共同出现的症状的模型以及年龄很小或在85岁以上的患者的所有模型中,准确性下降。对于百分比很高或很低的患者群体,其性能也会受到影响性别。
基本上,研究人员假设,性能不佳是由具有异常预测性能的患者和疾病以及潜在的无法衡量的混杂因素引起的。例如,老年患者往往比年轻患者进入医院的疾病和相关症状更多。Chen说,这意味着模型很难将特定疾病与特定症状相关联。她补充说:“类似地,年轻患者没有很多疾病或许多症状,如果他们患有罕见疾病或症状,就不会以模型理解的正常方式出现。”
分割数据
研究人员还收集了更多的患者数据,并创建了三个不同粒度的不同数据集,以查看这是否可以改善性能。在原始分析中使用的270,000次就诊中,研究人员提取了140,804名独特患者的完整EHR历史,追溯了十年,并从各种来源(例如医生笔记)中总共获得了740万个注释。
数据集创建过程中的选择也影响了模型性能。其中一个数据集将140,400个患者历史记录的每一个汇总为一个数据点。另一个数据集将740万个注释中的每个注释视为一个单独的数据点。最后一个为每个患者创建“情节”,定义为连续的就诊系列,间隔不超过30天,总共产生约140万次发作。
直观地讲,将整个患者历史记录汇总到一个数据点中的数据集应该考虑到整个患者历史记录,从而提高准确性。然而,与直觉相反,这也使朴素的贝叶斯模型在某些疾病上的表现更差。“通过机器学习模型,您可以假设患者信息越多越好。但是这些模型取决于您提供给它们的数据的粒度。” Chen说。“您使用的模型类型可能会不知所措。”
如预期的那样,提供模型人口统计信息也可能是有效的。例如,模型可以使用该信息排除所有男性患者,例如,预测宫颈癌。老年患者可以消除某些更常见于老年患者的疾病。
但是,令人惊讶的是,人口统计信息并不能提高最成功模型的性能,因此可能不需要收集数据。Chen说,这很重要,因为根据数据编译数据和训练模型可能既昂贵又耗时。但是,根据模型,使用数据分数实际上可能不会提高性能。
接下来,研究人员希望利用他们的发现建立一个强大的模型,以在临床环境中进行部署。当前,健康知识图了解疾病和症状之间的关系,但是不能从症状中直接给出疾病的预测。“我们希望将任何预测模型和任何医学知识图表置于压力测试之下,以便临床医生和机器学习研究人员可以自信地说:'我们相信这是一种有用的诊断工具,” Chen说。