논문 리뷰

Development of Clinically Validated Artificial Intelligence Model for Detecting ST-segment Elevation Myocardial Infarction[Annals of Emergency Medicine]

해파리냉채무침 2024. 8. 10. 14:33

summary

논문 주제: ST분절 상승 심근경색을 감지하기 위한 임상적으로 검증된 인공지능 모델 개발

https://www.sciencedirect.com/science/article/abs/pii/S0196064424003275

 

methods

- 데이터: 전향적 경피적 관상동맥 중재술 레지스트리의 심전도(ECG) 파형 데이터

- 관상동맥 조영술 데이터를 기반으로 각 심전도에 대한 기준(STEMI OR NOT STEMI) 설정

- 5개의 CNN 을 결합한 앙상블 모델 개발

- 검증 수행 방법: 증상 기반 심전도 데이터,의사와의 비교, 외부 검증

 

results

- 18,697개 중 1745(9.3%)가 STEMI 

- AI 모델

 accuracy( 전체 테스트 결과 중에서 올바르게 진단된 경우의 비율  92.1%)

sensitivity( 실제 질병이 있는 환자 중에서 검사에서 양성으로 올바르게 진단된 비율  95.4%)

specificity( 실제 질병이 없는 환자 중에서 검사에서 음성으로 올바르게 진단된 비율 91.8%) 

 

conclusion

gradient-weighted class 매핑으로 시각화 한 결과, ai 모델은 합리적인 설명력을 가짐. 즉 성능이 좋다.


Introduction

Background

  • STEMI(심근경색 ST 분절 상승)는 관상동맥의 폐쇄로 인한 심각한 심혈관 질환임.
  • ST 분절 상승이 ECG에서 관찰되며, 주로 1차 경피적 관상동맥 중재술로 치료됨.
  • reperfusion therapy덕분에 STEMI로 인한 사망률이 크게 감소함.
  • 경피적 관상동맥 중재술을 위한 카테터실의 신속한 활성화가 매우 중요함.
  • 그러나 여러 질병이 ST 분절 상승을 유발하여 불필요한 카테터실 활성화를 초래할 수 있음.
  • STEMI 오진율은 14%에서 36%까지 이르며, 카테터실 취소 환자는 더 높은 동반질환(comorbidities) 및 사망률과 관련 있음.
  • 응급 침습적 관상동맥 조영술의 합병증(출혈, 혈관 손상 등) 때문에 정확한 감별 진단이 필요함.
  • STEMI 감지를 위한 인공지능(AI) 알고리즘이 개발되었으나, ECG 수가 제한적이고 정상 동성 리듬(normal sinus rhythm)만 포함되며, 관상동맥 조영술 결과가 없는 등의 한계가 있음.

모르는 용어들

reperfusion therapy(재관류 요법): 다리나 손목의 혈관을 통해 물망처럼 생긴 스텐트라는 금속 물질을 혈전으로 막히거나 좁아진 부위에 삽입하는 치료법

METHODS

Study Design and Settings

  • 2006년부터 2020년까지 세브란스 병원에서 경피적 관상동맥 중재술을 받은 19세 이상의 환자를 확인함.
  • 주요 제외 기준은 (1) 관상동맥 조영술 데이터 부재 또는 (2) 경피 관상동맥 중재술 24시간 이내에  ECG의 부재 
  • 주로 ECG는 PCI 당일에 수행된 것을 사용함.
  • 두 명의 전문의가 ECG를 STEMI 그룹과 비-STEMI 그룹으로 나누었음.
  • ST상승 심근경색 정의:  남성의 경우 40세 미만은 2.5 mm, 40세 이상은 2.0 mm/ 여성은 V2~3번 리드에서 1.5 mm 이상/ 나머지 리드에서 1mm 이상 최소 두 번의 연속적인  ST 분절 상승이 있는 경우 
  • ST 분절 상승 위치와 일치하는 관상동맥 협착이 조영술에서 확인되면 STEMI로 판별함..
  • STEMI로 확인되지 않은 ECG는 비-STEMI 그룹으로 배정함.

STEMI 기준에 대해 찾아본 문서: https://www.ekjm.org/journal/view.php?number=25494

 

The 2017 Update of the Clinical Guidelines for ST-Segment Elevation Myocardial Infarction of the European Society of Cardiology

The 2017 Update of the Clinical Guidelines for ST-Segment Elevation Myocardial Infarction of the European Society of Cardiology

www.ekjm.org

연속된 두 개 이상의 전극에서 ST분절이 1 mm 이상의 상승을 보이고 허혈성 흉통이 있는 경우에는 일반적으로 STEMI로 진단된다고 한다. 

ST분절: QRS파의 끝나는 점에서 T파의 시작점 사이의 간격을 나타내는 부분

https://bioinformaticsandme.tistory.com/407

논문에서 의미하는 리드란? 심전도(ECG)에서 전극의 배치를 의미함. 심전도는 심장의 전기적 활동을 기록하기 위해 여러 개의 전극을 몸에 부착하여 측정하는데, 각 리드는 특정한 위치에서 전기 신호를 수집하여 심장의 다양한 각도에서의 전기적 활동을 보여줌.

Data Collections

  • 12lead를 기준으로 ECG 파형 기록을 추출하였으며, 10초 간의 500 Hz 샘플링 데이터를 사용함.
  • 연세의료원의 MUSE 심장학 정보 시스템(미국 일리노이주 시카고, GE HealthCare)에서 해당 컴퓨터 기반 해석 정보를 추출
  • 8개의 리드(I, II, V1~V6) 데이터를 사용하였으며, 나머지 리드는 나머지리드의 선형 조합으로 계산함.
  • 데이터셋을 사용가능한 ECG로 구성하여 3개(훈련, 내부 검증, 테스트 셋)로 나누었음.
  • 훈련 세트와 내부 검증 세트는 2006년부터 2019년까지 수집된 ECG에서 9:1 비율로 무작위로 구성하였으며, 테스트 세트는 2020년에 수집된 ECG로 구성됨.

flowchart

https://www.gehealthcare.co.kr/products/diagnostic-ecg/cardio-data-management

 

Cardio Data Management

Cardio Data Management

www.gehealthcare.co.kr

 

Development and Evaluation of the AI Model

  • STEMI와 비-STEMI 그룹으로 ECG 데이터를 분류하기 위해  컨볼루션 신경망 (cnn)기반의 앙상블 알고리즘을 사용하였으며, 구조는 이전 모델 (1: STEMI, 0: 비-STEMI) 을 기반으로 하여 하이퍼파라미터와 단순화된 레이어를 추가함.
  • 훈련 중 모델은 binary cross entropy을 최소화하여 분류 결과를 실제 값과 일치시키고, STEMI 클래스에 대한 ECG 특징을 학습함.
  • 클래스 불균형 문제를 해결하기 위해 STEMI 비율에 기반하여 손실 함수에 클래스별 가중치( 소수 클래스에 대한 손실을 더 크게 반영 )를 부여함.
  • validation 세트에서  precision-recall 곡선 아래 가장 높은 면적(AUPRC)을 가진 가장 간단한 컨볼루션 신경망 구조를 선택함.
  • 5개의 컨볼루션 신경망으로 앙상블 모델을 형성하여 출력값을 평균하고, Youden 지수를 최대화하는 cutoff 값을 결정.(민감도+특이도-1)

binary cross entropy: 모델의 예측 확률과 실제 레이블 간의 차이를 측정

  • 모델의 성능을 정확도(accuracy), 민감도, 특이도로 평가함.
  • AI 모델의 신뢰성을 평가하기 위해 보정 플롯(calibration plots)을 생성하여 모델 출력 점수가 실제 값의 비율을 정확히 반영하는지 시각적으로 확인함.
  • deep neural network의 불투명성(black-box phenomenon)을 보완하기 위해, 생성된 AI 모델의 설명 가능성을 시각화하기 위해 기울기 가중 클래스 활성화 맵(Grad-CAM) 플롯을 생성함.
  • Grad-CAM에서는 최종 합성곱 층의 기울기를 사용하여 AI 모델이 관심을 가지는 ECG 세그먼트를 강조하는 위치 맵(localization map)을 제시함.

black-box phenomenon: 모델의 내부 작동 방식이나 결정 과정을 이해하기 어려운 특성

Grad-CAM(Gradient-weighted Class Activation Mapping): 예측 결과를 시각화하기 위한 기법으로, 모델이 특정 클래스에 대해 어떤 부분을 주목했는지 보여줌

https://wikidocs.net/135874

Statistical Analyses

  • 연속 변수는 중앙값과 사분위 범위(IQR)로 제시하고, 범주형 변수는 숫자와 백분율로 제시함.
  • 연속 변수는 Mann–Whitney U 검정을 사용해 비교하고, 범주형 변수는 카이제곱 검정 또는 Fisher's exact test을 사용해 비교함.
  • 데이터의 신뢰성을 확인하기 위해 두 명의 심장 전문의의 결정에 기반하여 Cohen's Kappa score를 계산함.
  • 수신자 작동 특성 곡선(AUROC)과 평균 정밀도 곡선(AUPRC)의 95% 신뢰 구간(CI)을 계산하기 위해 bootstrap resampling( 데이터 집합에서 반복적으로 샘플을 추출 )방법을 사용함.
  • 두 방향 P 값이 계산되었고, P<.05는 통계적으로 유의미한 것으로 간주

Mann–Whitney U 검정 : 독립적인 집단 간의 차이를 비교하기 위해 사용되는 비모수 통계 검정,주로 연속형 데이터의 분포가 정규성을 따르지 않을 때 사용

Fisher의 정확 검정(Fisher's exact test)은 두 개의 범주형 변수 간의 독립성을 평가하기 위해 사용되는 통계적 검정. 주로 표본 크기가 작거나 데이터가 희소할 때 사용

 Cohen's Kappa score : 두 평가자 간의 분류 결과의 일치도를 측정,주로 범주형 데이터에서 사용되며, 평가자 간의 일치가 우연에 의한 것인지 여부를 평가

Performance of Clinical Physicians

  • 현재 상업용 ECG 기기는 STEMI 진단 결과를 제공하지만, 최종 진단은 임상 의사가 내림.
  • 본 연구에서는 내과 전공 2년차 거주자 3명을 모집하여 STEMI 진단 성능을 평가함.
  • 300개의 다양한 ECG를 무작위로 선택하고 STEMI의 유병률을 유지함.
  • 의사들은 AI 모델이나 ECG 기기의 예측 결과를 알지 못한 상태에서 제공된 ECG가 STEMI인지 여부를 독립적으로 판단함.

Clinical Validation

  • AI 모델의 실제 효과를 평가하기 위해 2020년 세브란스 병원 응급실에 방문한 흉통 환자의 ECG를 사용하여 임상 검증을 수행함.
  • 임상 검증 세트는 응급실 도착 후 48시간 이내의 적절한 ECG로 구성됨.
  • 임상 검증 세트의 ECG에 대한 실제 값을 모델 개발 데이터 세트와 동일한 방법으로 결정함.
  • 관상 동맥 조영술 데이터가 없는 경우, CT나 심초음파 등의 다른 검사 결과를 고려하여 임상 결정을 기반으로 판단함.

Additive Benefit of the AI Model

  • AI 모델의 추가적인 이점을 평가하기 위해, AI 모델로 인한 임상 결정의 변화를 critical pathway cohort에서 평가함.
  • 세브란스 병원에서는 STEMI의 신속한 진단과 심장 카테터 실험실 활성화를 위한 critical pathway 가 마련되어 있음.
  • critical pathway  는 응급실의 두 의사가 합의하여 활성화됨.
  • 2007년부터 2020년까지 critical pathway  가 활성화된 환자를 분석하고, 임상 검증 세트와 동일한 방법으로 실제 값을 검토함.

critical pathway : 표준화된 진료지침

External Validation

  • AI 모델의 외부 검증을 위해 본 연구에서는 공개된 ECG 데이터 세트인 PTB-XL을 사용함.
  • 이 중 STEMI로 간주된 ECG가 외부 검증 세트에 포함됨.

RESULTS

Baseline Characteristics of Study Population

  • 세브란스 병원에서 시행된 30,133건의 경피적 관상 동맥 중재술 중 2,609개의 ECG는 관상 동맥 조영술이나 ECG 데이터가 없어서 제외됨. 추가로 8,827개의 ECG는 경피적 관상 동맥 중재술과 24시간 이상 차이가 나는 것도 제외함.
  • 최종적으로 18,697개의 ECG가 적격으로 선정되었으며, 이 중 1,745개(9.3%)가 STEMI로 분류됨.
  • 모델 개발 데이터 세트에서 Cohen의 kappa score는 0.85로 나타남.
  • STEMI 그룹은 비STEMI 그룹에 비해 젊은 환자(64세 vs 66세), 남성 비율이 높음(78.3% vs 72.4%), 체질량지수(BMI)가 낮음(24.2 kg/m² vs 24.4 kg/m²), 현재 흡연자 비율이 높음(35.0% vs 19.4%)과 관련이 있음.
  • STEMI 그룹은 고혈압(51.9% vs 66.0%), 당뇨병(29.2% vs 37.0%), 이상지질혈증(54.6% vs 76.0%) 등의 동반 질환 비율이 낮음.
  • 이전 경피적 관상 동맥 중재술(15.5% vs 27.6%) 및 관상 동맥 우회 수술(0.6% vs 3.4%)을 받은 환자의 비율도 STEMI 그룹에서 낮음.
  • STEMI 그룹의 혈장 헤모글로빈(14.4 mg/dL vs 13.7 mg/dL), 혈소판 수(244,000 /mL vs 225,000 /mL), 혈청 크레아티닌(0.99 mg/dL vs 0.91 mg/dL) 수치가 비STEMI 그룹보다 높음.

Performance Assessment of the AI Model

  • deep ensemble의 모델 출력 점수의 컷오프 값은 Youden 지수를 최대화하기 위해 0.0768로 최적화됨.
  • deep ensembleAUROC 면에서 단일 신경망보다 우수한 성능을 보임( 딥 앙상블 모델 AUROC: 0.979 [신뢰구간 95% CI 0.969 to 0.988] vs 단일 신경망 AUROC 0.973 [95% CI 0.960 to 0.984]; P=0.007). ( 신뢰 구간이 좁을수록 모델의 성능에 대한 확신이 높음)
  • 그러나 AUPRC 값은 단일 신경망과 유사함(0.870 [95% CI 0.817 to 0.914] vs 0.850 [95% CI 0.796 to 0.898]; P=0.062).

AUROC와 AUPRC의 차이점? AUROC는 전체적인 분류 성능을 평가하는 데 유용하며, AUPRC는 정밀도와 재현율의 균형을 중시하는 경우에 더 적합

Performance Comparison among the AI Model, ECG Machine, and Clinical Physicians

  • AI 모델은 테스트 셋에서 AUROC 0.981, AUPRC 0.913을 기록하고, 정확도 92.1%, 민감도 95.4%, 특이도 91.8%(Youden 지수 0.872)를 달성함.
  • 상업용 ECG 기계는 정확도 94.6%, 민감도 60.5%, 특이도 98.3%(Youden 지수 0.588)를 기록함.
  • 임상 의사들은 평균적으로 정확도 79.6%, 민감도 81.1%, 특이도 77.4%(Youden 지수 0.585)를 달성함.

Grad-CAM

  • STEMI 또는 비STEMI로 정확하게 예측된 ECG의 Grad-CAM 예시가 아래 제시되어 있으며, 모델의 예측 성능에 기여하고 관련성이 높은 ECG 구간을 강조함.

Clinical Validation

  • 2020년 응급실을 방문한 총 환자의 5.2%에 해당하는 2,699개의 ECG가 임상 검증 세트에 포함되었으며, 이 중 STEMI의 유병률은 3.7%임.
  • 임상 검증셋의 2,599명 비STEMI 환자 중 283명(10.9%)이 AI 모델을 통해 STEMI로 확인됨.
  • AI 모델은 임상 검증에서 정확도 89.3%, 민감도 95.0%, 특이도 89.1%를 달성함.
  • AUROC는 0.978(95% CI 0.959 to 0.992), AUPRC는 0.808(95% CI 0.718 to 0.893)임.
  • ECG 기계는 임상 검증 세트에서 정확도 96.9%, 민감도 60.0%, 특이도 98.3%를 기록함

Additive Benefit in the Critical Pathway Cohort

  • 2007년부터 2020년까지 총 3,307개의 ECG가 중증 경로 집단에 포함됨.
  • 이 중 1,640개(49.6%)의 ECG가 비STEMI로 확인됨.
  • AI 모델은 부적절하게 중증 경로가 활성화된 518명의 환자를 비STEMI로 재분류했으며, 34명의 진짜 STEMI 환자를 비STEMI로 재분류함.

External Validation

  • "정상" 주석이 있는 5,991개의 ECG와, 79개의 STEMI ECG로 구성된 외부 검증셋에서 AI 모델은 정확도 97.6%, 민감도 83.3%, 특이도 97.9%를 달성함.
  • AI 모델의 AUROC는 0.979(95% CI 0.963 to 0.992), AUPRC는 0.680(95% CI 0.577 to 0.774)임.

LIMITATIONS

  • 이 연구는 한국의 단일 병원 데이터를 사용하였으므로, 일반 인구로 확장하기 위해 다양한 환경(국가, 인종, 지역)에서 AI 모델의 검증이 필요함.
  • 민감도와 특이도 간의 균형을 고려하더라도, 테스트 세트에서 8.2%, 임상 검증 세트에서 10.9%의 위양성률은 무시할 수 없음. AI 모델이 ECG 기계보다 민감도에서 우수하지만, 위양성 결과로 인해 부적절한 심장 카테터 실험실 활성화가 발생할 수 있어 추가 검증이 필요함.
  • STEMI 기준으로 DeWinter wave이나 Smith- modified Sgarbossa 기준과 같은 STEMI 동등 특성이 포함되지 않았으므로, 이러한 특성을 고려한 추가 연구가 필요함.
  • 임상 결과(심장 기능 저하, 병원 체류 기간, 사망률 등)를 분석하지 않았으며, AI 모델의 진단과 실제 임상 지표 개선 간의 연관성을 파악하는 것이 중요함. 따라서 AI 모델의 진단 성능뿐만 아니라 임상 결과 개선에 대한 평가가 필요함.
  • 비교에 사용된 의사들이 상대적으로 경험이 적었으므로, 일반 의사와의 비교를 통해 AI 모델이 긴급 관상 동맥 조영술의 필요성과 전원 결정을 도울 수 있음을 제시할 수 있음. 시니어 의사들의 진단과의 비교 평가도 필요함.
  • 인종 및 민족 정보에 대한 데이터를 포함하지 않았음.

심전도(ECG)에서 STEMI(심근경색의 ST 분절 상승)를 진단하는 데 중요한 역할을 하는 지표

DeWinter wave: 심전도에서 ST 분절의 하강과 T파의 상승이 특징, 심장 앞쪽에 있는 심근의 허혈을 나타냄.

https://litfl.com/de-winter-t-wave/

Smith- modified Sgarbossa : 비STEMI 환자에서 심전도에 나타나는 비정상적인 ST 변화 패턴을 평가

https://litfl.com/sgarbossa-criteria-ecg-library/

 

DISCUSSION

  • 이 연구에서 제시된 12 lead ECG 기반 AI 모델은 이전 모델들에 비해 여러 가지 장점을 가지고 있음.
  • 첫째, AI 모델은 실제 관상 동맥 조영술 정보를 결합한 ECG 데이터 세트를 사용하여 훈련 및 검증되어 진짜 값의 정확성을 보장함.
  • 둘째, 단일 모델보다 높은 성능을 위해 deep ensemble model을 개발함.
  • 셋째, 증상 기반 ECG 데이터와 외부 검증을 통해 선택 편향과 과적합 문제를 최소화함.
  • 넷째, Grad-CAM을 통해 AI 모델의 설명 가능성을 제공하고 블랙박스 현상을 보완함.
  • 마지막으로, 중증 경로 집단을 통해 AI 모델의 추가적인 이점이 제시됨.
  • 현재 연구에서 두 명의 독립 심장 전문의가 각 ECG에 해당하는 관상 동맥 조영술 데이터를 사용하여 진단을 확인함.
  • Cohen의 kappa score가 0.8 이상이었고, 이견 발생 시  심장 전문의가 개입하여 모델 개발 데이터 세트의 진짜 값의 정확성이 높게 보장됨.
  • AUROC 값은 불균형 데이터 세트에서 모델 성능을 과대 평가할 수 있어 적절하지 않으며, AUPRC를 주요 지표로 사용함.
  • 과적합된 모델이 훈련 세트에 나타나지 않은 데이터에 대해 잘못된 결정을 내릴 수 있으므로, 5개의 독립적으로 훈련된 신경망 앙상블 모델로 AI 모델을 확장함.
  • deep ensemble model 이 단일 모델보다 과적합을 완화하는 것으로 보고되었으며, calibration plot에서 딥 앙상블 모델이 단일 신경망보다 더 나은 정렬을 보였음.
  • 임상 의사는 ECG 기계 알고리즘에 비해 높은 민감도와 낮은 특이도를 보였고, AI 모델은 균형 잡힌 성능을 나타냄.
  • AI 모델의 Youden 지수는 0.872로, ECG 기계 알고리즘은 0.588, 임상 의사는 0.585였음. 이는 AI 모델이 STEMI 진단에 있어 우수한 알고리즘임을 나타냄.
  • 훈련 데이터가 경피적 관상 동맥 중재를 받은 환자의 ECG로 한정되어 있어, 모델 개발 데이터의 뛰어난 성능이 실제 데이터에서 보장되지 않음.
  • 임상 검증을 통해 AI 모델의 예측 성능을 평가했으며, 임상 검증 세트에서의 성능 지표는 테스트 세트보다 낮았지만, ECG 기계 알고리즘과 비교할 때 여전히 균형 잡힌 값을 보임.
  • AI 모델의 결과 설명 가능성이 중요한데, Grad-CAM을 사용하여 AI 모델이 ST 및 T-세그먼트를 인식하는 방식을 보여줌.
  • 결론적으로, 개발된 딥 앙상블 모델은 경피적 관상 동맥 중재 등록 및 증상 기반 ECG 세트에서 뛰어난 균형 잡힌 성능을 달성하였고, 추가적인 임상 이점을 검증하기 위한 후속 연구가 필요함.

opinion: 이전 폐 청진음 관련 논문과 공통점이 있다면, 신호처리 분야에서 데이터 불균형 문제가 공통적으로 있는것 같다. 그리고 cnn을 사용했다는 점, 의사 진단과 비교를 했다는 점이다. 특히 pathological class 진단 시 불균형 문제를 맞춰야 하는데, 이에 가중치를 더 줘서 균형을 어느정도 맞추는 것 같다. 

신호처리 연구를 할 때 processing을 통해 다 쳐내고 남은 실제 ecg 데이터가 얼마 되지 않아, 연구에 필요한 진짜 데이터를 구하는게 관건인 것 같다. 모델로는 autoencoder나 transformer를 써보는 것도 좋을 것 같기도.