논문 리뷰

Differentiation of glioblastoma from solitary brain metastasis using deep ensembles: Empirical estimation of uncertainty for clinical reliability[Computer Methods and Programs in Biomedicine,2023]

해파리냉채무침 2024. 9. 21. 14:56

제목: 딥러닝 앙상블을 이용한 뇌전이 교모세포종 판별 : 임상 신뢰성을 위한 불확실성의 경험적 추정

---

Abstract

Background and Objectives: 예측 불확실성 추정 및 해석 가능성을 제공하여, 교모세포종(GBM)과 단일 뇌 전이(SBM)를 구분할 수 있는 임상적으로 신뢰할 수 있는 딥 러닝 모델을 개발.

Methods: 총 469명의 환자(GBM 300명, SBM 169명)를  훈련 데이터 셋에 등록함. DenseNet121을 기반으로 한 딥러닝 앙상블이 다중 매개변수 MRI를 사용하여 훈련되었다. 모델 성능은 외부 테스트 셋(GBM 101명, SBM 42명)에서 검증되었다. 각 입력에 대한 엔트로피 값이 불확실성 측정을 위해 평가되었고, 엔트로피 값에 따라 데이터셋이 높은 불확실성 그룹과 낮은 불확실성 그룹으로 나누어졌다. 또한, 알려지지 않은 클래스(수막종 환자 257명)의 OOD(Out-Of-Distribution) 데이터의 엔트로피 값이 모델의 불확실성 추정 평가를 위해 비교되었다. 모델의 해석 가능성은 모델의 localization 정확도를 통해 추가적으로 평가되었다.

Results : 외부 테스트 세트에서, 딥러닝 앙상블의 곡선 아래 면적(AUC), 정확도, 민감도 및 특이도는 각각 0.83(95% 신뢰 구간 [CI] 0.76–0.90), 76.2%, 54.8% 및 85.2%였다. 낮은 불확실성 그룹에서의 성능이 높은 불확실성 그룹의 성능보다 높았으며, AUC는 각각 0.91(95% CI 0.83–0.98)과 0.58(95% CI 0.44–0.71)로 나타났다. 이는 엔트로피 값을 통한 불확실성 평가가 낮은 불확실성 그룹에서 신뢰할 수 있는 예측을 보장함을 나타낸다. 또한, 딥러닝 앙상블은 OOD 데이터에 대한 예측의 90.7%를 불확실한 것으로 분류하여 데이터셋 변화에 대한 robustness을 보여주었다. 위치 정확도로 평가된 해석 가능성은 “낮은 불확실성 및 높은 localization 정확성” 하위 그룹에서 AUC 0.98(95% CI 0.95–1.00)로 추가적인 신뢰성을 제공하였다.

Conclusions : 딥러닝 앙상블의 불확실성 및 해석 가능성의 경험적 평가가 예측의 robustness을 입증하며, GBM과 SBM을 구분하는 임상적으로 신뢰할 수 있는 모델을 제공한다.


Introduction

  • 교모세포종(GBM)과 뇌 전이는 성인에서 가장 흔한 악성 종양으로, MRI에서 대조증강 병변( multiple contrast-enhancing lesions )이 여러 개 있는 경우 뇌 전이를 쉽게 진단할 수 있음. 하지만 30%의 경우 원격 전이의 초기 증상으로 나타나며, 단일 병변의 약 절반에 해당됨. 두 질환은 MRI에서 겹치는 특징을 가지고 있어 진단이 어렵고, 적절한 치료 계획을 위해 구분이 중요함.
  • 최근 딥 러닝(DL)은 의료 영상 분류 작업에서 뛰어난 성능을 보여주지만, 신경종양학 분야에서는 데이터 부족과 black-box nature 으로 인해 임상 적용에 제한이 있음. DL 모델의 신뢰성과 해석 가능성이 중요하며, 불확실성과 해석 가능성을 동시에 해결하는 모델이 필요함.
  • 불확실성 정량화는 의사가 DL 모델의 잘못된 예측을 신뢰하지 않을 때를 판단하는 데 도움을 줌. 베이지안 기반 근사 및 앙상블 학습 방법이 불확실성 추정에 널리 사용됨. 딥러닝 앙상블은 구현이 간단하고 계산 효율성이 높아, 더 나은 성능과 불확실성 추정치를 제공할 수 있음.
  • 해석 가능성은 모델의 예측과 관련된 중요한 특징을 제공함으로써 해결할 수 있으며, Grad-CAM 같은 시각적 설명 방법이 많이 사용됨. 이 연구는 GBM과 SBM을 구분하기 위해 예측 불확실성 추정과 해석 가능성을 제공하는 임상적으로 신뢰할 수 있는 DL 모델을 개발하고 검증하는 것을 목표로 함.

교모세포종이란? 신경교세포에서 발생하는 종양으로, 전체 뇌종양의 12~15% 정도를 차지함.

대조증강병변( multiple contrast-enhancing lesions ): 조영제를 사용하여 특정 병변이나 조직의 특성을 더 뚜렷하게 보여주는 이미지

https://www.researchgate.net/figure/Brain-MRI-with-contrast-showing-multiple-ring-enhancing-lesions-and-leptomeningeal_fig1_275224045

black-box nature : 모델의 내부 작동 방식이 불투명하거나 이해하기 어려운 경우

Material and methods

Patient population and MRI imaging

  • 2006년 2월부터 2017년 12월까지 세브란스 병원에서 조직학적으로 확인된 GBM 또는 뇌 전이를 가진 999명의 환자 기록을 분석함.
  • 포함 기준은 T2-weighted 및 postcontrast-T1 weighted MRI를 포함한 환자 기록이며, 제외 기준은 1) 다발성 대조증강 병변( multiple contrast-enhancing lesions ), 2) 불완전한 MRI, 3) 전처리 오류임. 총 469명의 환자가 기관 훈련 세트에 등록되었고, 이 중 300명이 GBM, 169명이 SBM 환자임.
  • 내부 코호트는 train(GBM 229명, SBM 128명), validation(GBM 26명, SBM 15명), 내부 test(GBM 45명, SBM 26명) 세트로 무작위 분할됨.
  • 모델 성능의 외부 검증을 위해 2014년 1월부터 2017년 12월까지 아산병원에서 동일한 기준으로 143명의 환자(GBM 101명, SBM 42명)를 외부 테스트 세트로 포함함.
  • 모델의 불확실성 추정 robustness을 평가하기 위해 OOD 데이터셋을 포함하였으며, 2008년 2월부터 2018년 9월까지 동일 기관에서 수막종 환자 257명(저등급 162명, 고등급 95명)을 등록함.
  • MRI는 다양한 1.5 또는 3.0 T MRI 스캐너를 사용하여 수행되었음

T2-weighted MRI: 수분이 많은 조직을 강조하여 염증이나 부종 등의 병변을 식별하는 데 유용함

https://en.wikipedia.org/wiki/T2*-weighted_imaging

postcontrast-T1 weighted MRI: 조영제를 사용하여 혈류가 있는 병변을 강조하고 해부학적 세부사항을 명확히 보여줌

https://link.springer.com/article/10.1007/s00234-019-02204-1

 

Out-Of-Distribution (OOD) 데이터셋: 훈련된 데이터셋과 분포가 다르거나, 클래스가 다른 데이터로 구성, OOD 데이터셋은 모델의 일반화 능력을 평가하는 데 중요한 역할을 함.

ex) 특정 이미지 인식 모델이 고양이와 개를 인식하기 위해 훈련되었지만, OOD 데이터셋에는 새나 자동차 이미지가 포함

Dataset preprocessing and training of DL models

  • NiBabel 패키지를 사용하여 MRI 픽셀 데이터를 처리하였으며, 모든 입력 이미지는 224×224로 크기를 조정하여 (224, 224, 3) 형태로 변환함. T2 및 T1C 슬라이스에 대해 min-max 스케일링을 수행하여 훈련 속도를 향상시킴. 종양이 포함된 중요한 슬라이스만 사용하기 위해 이전 연구의 tumor segmentation mask를 활용하여 종양 면적에 따라 상위 5개 슬라이스를 추출함. 하나의 T1C 슬라이스와 두 개의 해당 T2 슬라이스를 결합하여 3채널 입력 이미지를 구성함.
  • 딥러닝 앙상블의 전체 파이프라인이 제시되었으며, 훈련 방법으로는 (1) 알맞은 점수 규칙 사용과 (2) 앙상블 훈련의 두 가지 간단한 기술이 사용 (1)은 분류 작업을 위해 소프트맥스 범주형 교차 엔트로피를 알맞은 점수 규칙으로 사용함. (2) 배깅 기법을 사용하여 전체 트레이닝 셋에서 무작위화 기반 앙상블 방식을 적용함.
  • 딥러닝 앙상블의 성능을 single NN과 비교하기 위해, 동일한 baseline DL 아키텍처를 가진 단일 네트워크도 훈련하고 테스트함. 효율적인 특징 학습이 가능한 ImageNet과 사전 훈련된 2D CNN(DenseNet121)을 사용함. 동일한 DenseNet121 네트워크를 5번 병렬로 훈련하여, 각 네트워크의 예측 확률을 평균내어 최종 예측 확률을 도출함. 이전 연구에서 강력한 분류 성능과 불확실성 추정 향상을 보였음.
  • MRI에서 5개의 이미지를 추출하여 모델은 1785개의 훈련 이미지와 205개의 검증 이미지로 훈련됨. 과적합 방지를 위해 데이터 증강(90도 회전, 확대, 수평 및 수직 뒤집기)을 무작위로 적용함. 각 모델에 대해 50 에폭을 실행하고 early stopping patientce를 15로 설정하며, 배치 크기는 32로 설정함. learning rate scheduler가 있는 Adam 옵티마이저를 사용하여 각 에폭에서 학습률을 감소시킴. 마지막 dense layer에는 소프트맥스 활성화 함수를 사용함.

 

NiBabel 패키지: 파이썬에서 뇌 영상 데이터를 처리하기 위한 라이브러리, NIfTI뿐만 아니라 Analyze, MINC, AFNI, DICOM 등의 여러 이미지 형식을 지원

https://www.researchgate.net/figure/DenseNet121-architecture_fig1_363850803

densenet121 병렬 코드 예제

import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms
from torchvision.models import densenet121
from torch.utils.data import DataLoader

# 하이퍼파라미터 설정
batch_size = 32
num_epochs = 10
learning_rate = 0.001

# 데이터 전처리 및 로더 설정
transform = transforms.Compose([
    transforms.Resize((224, 224)),
    transforms.ToTensor(),
])

train_dataset = datasets.ImageFolder('path_to_train_data', transform=transform)
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)

# 모델 생성 및 GPU 설정
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = densenet121(pretrained=True)
model = model.to(device)

# 가중치 조정 (분류기 레이어)
num_classes = len(train_dataset.classes)  # 클래스 수
model.classifier = nn.Linear(model.classifier.in_features, num_classes)

# 모델을 병렬로 설정
if torch.cuda.device_count() > 1:
    model = nn.DataParallel(model)

# 손실 함수 및 옵티마이저 설정
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=learning_rate)

# 훈련 루프
for epoch in range(num_epochs):
    model.train()
    for images, labels in train_loader:
        images, labels = images.to(device), labels.to(device)

        # 순전파
        outputs = model(images)
        loss = criterion(outputs, labels)

        # 역전파 및 최적화
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

    print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {loss.item():.4f}')

 

early stopping 과 early stopping patience 의 차이점?

  • Early Stopping: 훈련이 언제 종료될지를 결정하는 전체적인 기법.
  • Early Stopping Patience: 성능 개선이 없더라도 훈련을 계속할 에폭 수를 설정하는 하이퍼파라미터. 예를 들어, patience가 5로 설정되면, 검증 성능이 5 에폭 동안 향상되지 않으면 훈련을 중단

Classification performance of deep ensembles and single net

  • 성능 평가를 위해 종양 면적이 가장 큰 슬라이스에서 단일 이미지를 사용하였음. 딥러닝 앙상블의 최종 예측 확률은 다섯 개의 단일 모델의 확률을 평균하여 계산함.
  • 최적의 확률 임계값을 선택하기 위해 Youden의 지수를 사용하였으며, 훈련 데이터셋에서 도출된 최적 확률 임계값을 내부 및 외부 테스트 세트에 동일하게 적용함.

Uncertainty estimation in deep ensembles and single net

  • 지도학습 classifcation에서 모델의 예측 불확실성 품질은 보정(calibration)과 엔트로피(entropy)를 기준으로 평가할 수 있음. 보정을 추정하기 위해 딥러닝 앙상블과 단일 네트워크에서 음의 로그 가능도(NLL)와 Brier score를 계산함. NLL 값이 낮고 Brier score 가 0에 가까울수록 더 나은 보정을 나타냄.
  • 각 입력에 대한 예측 엔트로피 값을 계산하고 딥러닝 앙상블과 단일 네트워크에서 비교함. 테스트셋 엔트로피 값을 기준으로 낮은 불확실성 그룹과 높은 불확실성 그룹으로 나누어 각 그룹의 분류 성능을 평가함. 엔트로피 cutoff 값은 0.25로 설정하고, 이 임계값은 내부 및 외부 테스트셋의 딥러닝 앙상블과 단일 네트워크에 동일하게 적용함.
  • 알려지지 않은 클래스에서의 불확실성 추정을 위해 OOD 데이터셋의 딥러닝 앙상블에서 예측 엔트로피 값을 평가하고, 내부 테스트 세트의 딥 앙상블에서의 엔트로피 분포와 비교함. 

Brier score

  • (N): 데이터 포인트의 수
  • (f_t): 예측된 확률 (예: 사건이 발생할 확률)
  • (o_t): 실제 결과 (0 또는 1; 사건이 발생하지 않으면 0, 발생하면 1)

0과 1 사이의 값을 가짐. 0은 완벽한 예측을 의미하고, 1은 예측이 완전히 부정확함. 낮은 Brier Score는 모델이 예측한 확률이 실제 결과와 가까움을 의미

Localization accuracy estimation in deep ensembles

  • 딥러닝 앙상블이 종양 영역에 집중하는지를 평가하기 위해 ground truth area 과 predication area 간의 교차 비율(IoU)을 계산함. IoU는 object detection 평가에 널리 사용되며, 모델의 예측 영역이 실제 종양 영역과 얼마나 겹치는지를 나타냄. GBM과 SBM을 구분하는 작업은 종양 병변의 차이를 감지하는 데 크게 의존하므로, IoU는 모델의 위치 정확도 성능을 측정하는 데 사용됨.
  • ground truth area 영역은  tumor segmentation mask 를 기반으로 하였으며, predication area 은 Grad-CAM을 사용하여 얻음. 활성화 값은 0에서 255 사이로 범위의 중앙값인 127.5를 기준으로 하여, 127.5보다 높은 활성화 값은 모델이 예측을 위해 시각화하는 영역으로 표시됨. 즉, IoU는 tumor segmentation mask 와 Grad-CAM으로 생성된 병합 히트맵을 사용하여 계산됨.
  • IoU 값을 기준으로 고정밀도 및 저정밀도 그룹으로 나누어, 임계값을 0.06으로 설정함. 불확실성 추정에 따라 그룹을 나눈 것과 함께, 테스트셋은 "고불확실성 및 고정밀도", "고불확실성 및 저정밀도", "저불확실성 및 고정밀도", "저불확실성 및 저정밀도"의 네 가지 하위 그룹으로 나누어짐.

IoU

https://pyimagesearch.com/2016/11/07/intersection-over-union-iou-for-object-detection/

Results

Patient characteristics

  • 총 612명의 환자(GBM 401명, SBM 211명)가 내부 및 외부 데이터셋에 포함되었음. 기관 데이터셋과 외부 테스트에서 GBM과 SBM 환자의 나이 및 성별 분포에 유의미한 차이가 없었음. OOD 데이터셋에는 257명의 수막종 환자가 포함됨. 

 

Classification and calibration performance of the deep ensembles and single net

  • 외부 테스트셋에서 딥러닝 앙상블 모델은 AUC 0.83 (95% 신뢰 구간 [CI] 0.76–0.90), 정확도 76.2%, 민감도 54.8%, 특이도 85.2%를 기록함.
  • single net 모델은 외부 테스트셋 에서 AUC 0.76 (95% CI 0.68–0.84), 정확도 74.1%, 민감도 45.2%, 특이도 86.1%로 딥러닝 앙상블보다 성능이 낮았음.
  • 딥러닝 앙상블 모델은 외부 테스트셋 에서 NLL 0.510 및 Brier 점수 0.322를 기록하였고, single net 모델은 NLL 1.354 및 Brier 점수 0.464로 보정 성능이 낮았음.

 

 

Uncertainty estimation in deep ensembles and single net

  • 외부 테스트셋 에서 딥러닝 앙상블 모델에 의해 환자들이 low-uncertainty 그룹(71명, 49.7%)과 high-uncertainty group (72명, 50.4%)으로 나뉘었으며, low-uncertainty 의 AUC는 0.91 (95% CI 0.83–0.98)로 high-uncertainty group 의 AUC 0.58 (95% CI 0.44–0.71)보다 성능이 높았음.
  • single net 의 경우, 환자들은 low-uncertainty (120명, 83.9%)과 high-uncertainty group (23명, 16.1%)으로 나뉘었으며,  low-uncertainty 그룹의 AUC는 0.74 (95% CI 0.65–0.84), high-uncertainty 그룹의 AUC는 0.63 (95% CI 0.40–0.87)으로 나타났음.
  • single net   모델에서 대부분의 환자(83.9%)가  low-uncertainty 그룹으로 분류되었으나 성능이 낮아, single net 모델이 overconfidence 으로 잘못된 예측을 하고 있음을 시사함.
  • OOD 데이터셋에서는 딥러닝 앙상블 모델이 내부 테스트셋보다 더 많은 비율의 환자를  high-uncertainty group 그룹으로 분류하였으며(90.7% vs 38.0%), 이는 딥러닝 앙상블이 알려지지 않은 클래스에서 더 높은 불확실성을 보임을 나타냄.

Impact of localization-adjusted uncertainty in deep ensembles

  • 외부 테스트셋에서 딥러닝 앙상블 모델의 “low-uncertainty, high localization accuracy " 하위 그룹은 AUC 0.98 (95% CI 0.95–1.00), 정확도 97.6%, 민감도 83.3%, 특이도 100.0%로 가장 높은 분류 성능을 보였음.
  • 반면, " high-uncertainty, low-localization accuracy " 하위 그룹은 AUC 0.65 (95% CI 0.48–0.81), 정확도 60.5%, 민감도 35.0%, 특이도 82.6%로 성능이 현저히 낮았음.
  • 이는 낮은 불확실성과 정확한 위치 정보가 함께 제공될 때 예측이 신뢰할 수 있는 추정이 될 수 있음을 시사함.

Discussion

  • 딥러닝 앙상블을 기반으로 GBM과 SBM을 구분하는 딥러닝 모델을 개발하였음. 딥러닝 앙상블 모델은 AUC 0.83 및 Brier 점수 0.322로 single net 모델보다 더 나은 분류 및 보정 성능을 보였음.
  • 개발된 딥러닝 모델의 신뢰성은 불확실성과 해석 가능성을 정량화하여 평가하였으며, OOD 데이터 처리 능력을 통해 신뢰성을 추가적으로 입증하였음. 본 연구의 방법론은 방사선학에 국한되지 않고 데이터가 부족한 다양한 의료 분야에도 적용 가능함을 시사함.
  • deep ensembles 모델은 저확신 그룹에 대해 신뢰할 수 있는 예측을 제공하였고, single net 모델은 높은 불확실성을 가진 환자를 제대로 식별하지 못함으로써 overconfidence 으로 인한 잘못된 예측을 유발할 수 있음을 보여주었음.
  • 본 연구의 한계로는 상대적으로 작은 데이터셋을 사용한 후향적 연구이며, 심화된 imaging sequences 를 제외한 전통적 이미지만 사용하였고, 한국 환자만을 대상으로 하여 비한국인을 위한 검증이 이루어지지 않았다는 점이 있음. 이러한 점들을 고려할 때, 향후 보다 다양한 인종을 포함한 연구가 필요함.

Conclusions

  • 결론적으로, 딥러닝 앙상블에서 불확실성과 해석 가능성을 실증적으로 평가한 결과는 예측의 robustness 을 입증하며, GBM과 SBM을 구분하는 임상적으로 신뢰할 수 있는 모델을 제공함.
  • 제안된 과정은 의료 이미징의 데이터가 부족한 다른 의학적 분야에도 적용될 수 있음.