近日麻省理工学院助理研究员杨玉哲等人在Nature子刊nature medicine(IF=87.241)上发表了题为《Artificial intelligence-enabled detection and assessment of Parkinson’s disease using nocturnal breathing signals》的研究。
团队设计的AI模型能够实现利用夜间睡眠呼吸信号来诊断帕金森(Parkinson's disease),并检测其严重程度。团队的工作也首次证明了睡眠呼吸信号是帕金森疾病的一个数字生物标志物(digital biomarker)。团队进一步通过无线信号检测呼吸的原理,实现了能够在患者家里部署、且无任何身体接触的疾病诊断、严重程度检测,和长期病情跟踪的系统。
研究背景
帕金森(PD)是世界上发展最快的神经系统疾病。截至2020年,美国有超过100万人患有PD,每年造成520亿美元的经济负担。到目前为止,没有药物可以逆转或阻止这种疾病的发展。PD药物开发和疾病管理的一个主要困难是缺乏有效的诊断生物标志物。该病通常根据临床症状进行诊断,主要与震颤和强直等运动功能有关。然而,运动症状往往在发病数年后出现,导致诊断较晚。因此,强烈需要新的诊断生物标志物,特别是那些可以在早期检测到疾病的生物标志物。
另外,也没有有效的进展性生物标志物来跟踪疾病的严重程度。如今,PD进展的评估依赖于患者的自我报告或临床医生的定性评级。通常情况下,临床医生使用一种名为“运动障碍社会统一帕金森病评定量表”(MDS-UPDRS)的问卷。MDS-UPDRS是半主观的,并没有足够的敏感性来捕捉患者状态的微小变化。因此,PD临床试验需要持续数年才能有足够的统计可信度报告MDS-UPDRS的变化,这会导致成本增加并且病情进展无法及时进行干预。
目前正在研究的一些潜在的PD生物标志物,成本高、具有侵入性,并且需要去专业医疗中心,因此不适合用于提供早期诊断或持续跟踪疾病进展的频繁测试。
已有研究表明,帕金森病和呼吸之间是存在联系的。研究报告称,PD的脑干中控制呼吸的区域发生了退化,导致呼吸肌肉功能减弱,睡眠呼吸障碍。此外,这些呼吸道症状往往比临床运动症状早几年出现,这表明在临床确诊前,呼吸特征是有潜力用于PD早期风险评估的。
AI系统介绍
该团队展示了一种基于AI的新系统(图1),用于检测PD、预测疾病严重程度并使用夜间呼吸跟踪疾病进展,如下图所示。
图1 根据夜间呼吸信号进行 PD 诊断和疾病严重程度预测的 AI 系统
该系统可以从受试者佩戴的呼吸带中提取夜间呼吸信号,也可以从睡眠时身体反射的无线电信号中提取夜间呼吸信号。它使用神经网络算法处理呼吸信号以推断该人是否患有PD,如果有,则根据MDS-UPDRS评估其PD的严重程度。该系统旨在提供一种客观、不显眼、低成本且可在患者家中重复检测的诊断和进展性数字生物标志物。
结果
数据集来源包括梅奥诊所、马萨诸塞总医院(MGH)睡眠实验室、迈克尔·j·福克斯基金会(MJFF)和美国国立卫生研究院(NIH)尤德尔中心赞助的帕金森病观察临床试验,一项由麻省理工学院(MIT)进行的观察性研究,以及来自美国睡眠研究资源的公共睡眠数据集,如睡眠心脏健康研究(SHHS)和MrOS睡眠研究。数据集如下表所示:
表1 本研究使用的数据集(破折号,不可用数据;N/A,不适用的数据)
数据集包含757名PD受试者(平均年龄69.1,27%女性)和 6,914 名对照受试者(平均年龄 66.2,30%女性)。
数据分为两组:呼吸带数据集和无线数据集。第一组来自多导睡眠设备(PSG),使用呼吸带记录人夜间呼吸。第二组用无线电装置以非接触方式收集夜间呼吸。
用于训练神经网络的受试者不用于测试。该团队对PD检测进行了k倍交叉验证 ( k = 4),并对严重性预测进行了留一验证。还通过对来自不同医疗中心的数据进行模型训练和测试来评估跨机构预测能力。此外,来自梅奥诊所的数据作为外部数据保存,在开发或验证期间从未用过,仅用于最终测试。
团队评估了通过一晚夜间呼吸诊断PD的准确性。图2a、b分别显示了呼吸带数据和无线信号数据的ROC曲线。该模型具有较高的PD检测精度。对于使用呼吸带测量的信号,模型的ROC曲线下面积(AUC)为0.889,灵敏度为80.22%(95%置信区间CI(70.28%,87.55%)),特异性为78.62% (95% CI(77.59%, 79.61%))。对于使用无线信号测量的信号,模型的AUC为0.906,灵敏度为86.23% (95% CI(84.08%, 88.13%)),特异性为82.83% (95% CI(79.94%, 85.40%))。
图2 基于夜间呼吸信号的PD诊断
团队进一步研究了将同一个人的几个晚上数据结合在一起是否会提高准确率。因为每个受试者有几个晚上的数据,计算所有晚上的模型预测得分。PD预测得分为0~1之间的连续数,如果得分超过0.5,则认为被试患有PD。团队使用每个受试者的中位PD评分作为最终诊断结果。如图2d,e所示,考虑到每个受试者几个晚上数据后,本队列中PD诊断敏感性和特异性进一步提高到100%。
接下来,团队计算了达到稳定性所需的夜数。使用无线数据集,并通过对时间窗口内连续夜晚的预测进行平均来计算稳定性。结果表明,当我们使用同一受试者的几个晚上数据时,稳定性提高了,并且仅用12个晚上就达到了0.95(95% CI(0.92,0.97))(图2c)。
为了评估AI模型在具有不同数据收集标准和患者人群的不同机构中的泛化性,团队在一个外部测试数据集(n=1,920晚,来自1,920名受试者,其中644名患有 PD)上验证了AI模型。模型的 AUC达到了0.851(图2f)。结果表明模型泛化性较好。
另外,团队还检验了跨机构预测能力,方法是用一个机构的数据测试模型,除测试机构外的其他机构的数据来训练模型。对于呼吸带数据,如图2g、h所示,SHHS跨机构AUC为0.857的, MrOS跨机构AUC为0.874。对于无线数据,MJFF的跨机构性能为0.892,Udall为0.884,MGH为0.974,MIT为0.916。这些结果表明,该模型在跨机构数据上非常准确。
目前,MDS-UPDRS是评估PD严重程度最常用的方法,评分越高,损伤越严重。评估MDS-UPDRS需要患者和临床医生共同努力:患者被要求亲自来诊所,评估由训练有素的临床医生进行,他们根据准主观标准对症状进行分类。
通过分析患者在家中的夜间呼吸情况,团队评估了AI模型对PD严重程度评分的能力具有与MDS-UPDRS良好相关性。团队使用无线数据集进行MDS-UPDRS评估,每个受试者有几晚的测量(n=53名受试者,25名PD受试者共1263晚,28名对照组共1338晚)。然后将基线时的MDS-UPDRS与模型计算的受试者基线访问后1个月内夜间的中位数预测进行比较。图3a显示模型的严重程度预测与MDS-UPDRS之间存在较强的相关性(R=0.94, P=3.6×10-25),证明AI模型可以预测PD疾病严重程度。
图3来自夜间呼吸信号的PD严重程度预测
团队还研究了AI模型预测与MDS-UPDRS不同子部分之间的相关性。图3d-g显示了模型预测与MDS-UPDRS不同子部分之间的相关性。我们观察到模型预测与第一部分(R=0.84, P=2×10-15)、第二部分(R=0.91, P=2.9×10-21)和第三部分(R=0.93, P=7.1×10-24)得分之间存在较强的相关性。这表明该模型同时捕捉了PD的非运动症状(如第一部分)和运动症状(如第二和第三部分)。模型的预测与第四部分有轻度的相关性(R=0.52, P=7.6×10-5)。这可能是由于PD和对照受试者在Part IV得分上存在较大的重叠(即研究人群中大多数PD患者和对照受试者Part IV得分为0)。
团队还将本模型的严重程度预测与H&Y -另一个帕金森病严重程度估计标准进行了比较。H&Y使用的是一个分类等级,级别越高,病情越严重。我们再次使用了Udall和MJFF数据集,因为它们报告了H&Y分数,并为每个受试者安排了几个晚上的时间。图3b表明,尽管没有使用H&Y进行训练,但该模型可以根据患者的H&Y分期可靠地区分患者(P=5.6×10-8, Kruskal-Wallis检验)。
最后,团队计算了图3c中相同数据集上PD严重程度预测的稳定性。该模型为评估帕金森病严重程度提供了一致且可靠的预测,其可靠性达到0.97 (95% CI(0.95, 0.98))。
由于呼吸和睡眠在PD的早期发展过程中受到影响,团队预计我们的AI模型可以在确诊之前识别出患有PD的个体。为了评估这种能力,团队利用了MrOS数据集,其中包括来自两次不同就诊的呼吸和PD诊断,相隔大约6年。团队选择了在第二次就诊时被诊断为PD,但在第一次就诊时没有确诊的受试者,并将他们称为“前驱PD组”(n=12)。选择“对照组”,团队从MrOS数据集中抽取了6年后第一次或第二次就诊时没有诊断为PD的受试者。对于前驱组中的每个受试者,我们抽取了多达40名年龄和性别匹配的对照受试者,从而产生了476名合格的对照受试者。我们根据第一次就诊时的呼吸数据评估了我们的模型,当时前驱组和对照组都没有PD诊断。图4a显示,该模型给出的前驱组(即最终诊断为PD的受试者)的PD评分远高于对照组(P=4.27×10–6,单侧Wilcoxon检验)。事实上,该模型预测其中75%的人在确诊之前就已经患有帕金森病。
图4 确诊前进行PD风险评估的模型评估,以及使用纵向数据进行的疾病进展跟踪
团队评估了Udall研究的疾病进展追踪数据,其中包括PD患者进入研究6个月(n=13)和12个月(n=12)的纵向数据。对于这些个体,我们使用两种方法评估他们的疾病进展。在第一种方法中,我们使用基线和第6个月或第12个月的临床评分MDS-UPDRS的差异。在第二种方法中,我们使用他们预测的MDS-UPDRS在6个月或12个月的变化。为了计算预测的MDS-UPDRS的变化,我们取基线后1个月的数据,计算其MDS-UPDRS预测中值,以及6个月后一个月的数据,计算其MDS-UPDRS预测中值。然后从基线的中位数减去第6个月的中位数。重复相同的步骤来计算第12个月与基线之间的预测差异。将结果绘制在图4b,c中。结果显示,临床医生评分的6个月和1年的MDS-UPDRS变化均无统计学意义(6个月P=0.983, 12个月P=0.748,单尾单样本Wilcoxon检验),与既往观察结果一致。相反,该模型对同一时期内MDS-UPDRS变化的估计具有统计学意义(6个月P=0.024, 12个月P=0.006,单尾单样本Wilcoxon检验)。
为了提供更多的见解,团队对队列中在此期间MDS-UPDRS增加最多的患者进行了超过1年的持续严重程度跟踪(图4d)。结果表明,AI模型对该患者一个月至下一个月的疾病进展追踪具有统计学意义(P=2.9×10-6, Kruskal-Wallis检验)。图中还显示,临床评分的MDS-UPDRS是有误差的;虽然PD是一种进行性疾病,且其严重程度应单调递增,但第6个月的MDS-UPDRS低于基线。
7. 区分 PD 和阿尔茨海默病
总结
医疗器械、新材料、人工智能;
一定技术壁垒