공부 서랍장/논문

[논문리뷰-의료] Automated Image Quality Evaluation of Structural Brain MRI Using an Ensemble of Deep Learning Networks

만땅이 2021. 11. 29. 18:40

논문 제목: Automated Image Quality Evaluation of Structural Brain MRI Using an Ensemble of Deep Learning Networks

배경 : 뇌 MRI 이미지의 품질평가 / 연구타입: 후향적 연구

/ Population : 자폐증 환자들의 뇌 이미지 1064개와 ABIDE 데이터셋 포함 

* 후향적 연구란? 이미 알고 있는 결과에 대한 과거를 추적한다.

 

Abtrast

- 자기공명영상(MRI)은 다양한 신경 질환을 조사하기 위해 가장 일반적으로 사용되는 방사선 촬영장비

- 다운스트림 분석에 영향을 미칠 수 있는 낮은 품질의 이미지를 제외하기 위해 이미지 품질 평가가 필요

- 자동화된 품질 평가 절차는 특정 이미지 품질 메트릭(IQM)을 계산하고 추출된 IQM을 기반으로 이미지 품질을 평가하도록 기계 학습 알고리즘을 훈련

- 이러한 방법의 정확도는 수작업으로 만들어진 IQM의 성능에 따라 달라진다

 - 최근 연구에 따르면 단일 사이트에서 획득한 MR 영상의 이미지 품질 자동 평가를 위한 DCNN의 실현 가능성이 입증

 

Materials and Methods

MRI Datasets and Expert Evaluation

공개적으로 이용 가능한 자폐성 뇌 영상 데이터 교환(ABIDE) 데이터 세트에는 1112명의 피험자에 대해 획득한 1064개의 구조적 뇌 영상,. IRB(Institutional Review Board)완료

 - ABIDE를 기계 학습에 사용하기 적합함. 3명의 평가자에 의한 데이터 시각적 품질 평가가 포함됨

( 1명은 the general quality of the functional data and derivatives 평가, 나머지 2명은,  quality of anatomical and functional data )

- 평가자중 1명이상이 허용불가 = 1, 총 1064개중 132개가 1, 932개가0 

- STEAD 데이터는 "0"으로

- 세트(set)는 DL 모델의 훈련, 검증 및 성능을 테스트하기 위해 사용되었으며, CombiRx 데이터베이스19는 DL 모델의 일반화 가능성을 평가하기 위한 독립적인 테스트 세트로 사용

 - MatLab에서 개발된 맞춤형 그래픽 사용자 인터페이스를 사용하여 CombiRx 데이터 세트에서 무작위로 선택한 110건을 평가 10개의 이미지 볼륨 중 29개는 "1"로, 81개는 전문가에 의해 "0"

 

Preprocessing

1) images were resampled to an isotropic resolution of 1 mm3 and matrix size of 256 × 256 × 256

2) image intensity was normalized in the range [0, 1] to accelerate convergence during training

 3) to minimize computational complexity, 32 slices with a 5-mm gap from the middle of the volume were extracted from each volume along the three principal planes (axial, coronal, and sagittal)

 

Network Architecture

- 32개의 슬라이스는 각 슬라이스의 품질을 예측하기 위해 DCNN에 대한 입력

-모든 슬라이스의 품질 점수는 볼륨별 점수를 예측하기 위해 완전 연결(FC) 네트워크에 대한 입력

- VGG16 모델 기반 (커널 크기와 보폭의 선택)

 - 네트워크는 입력 계층, 6개의 컨볼루션 계층, 1개의 완전 연결 계층, 그리고 출력 계층

- 컨볼루션 층은 3 × 3개의 커널

- 다운샘플링을 위해 2 × 2 보폭의 최대 풀링 연산이 사용

- 마지막 컨볼루션 레이어의 풀링된 특징 맵은 단일 벡터로 평평하게 만들어 8개의 노드가 있는 FC 레이어에 공급

 

Training

 - 638개 볼륨(60%, 61,248개 슬라이스),

 - 검증을 위해 213개 볼륨(20%, 20,448개 슬라이스)

 - 테스트를 위해 213개 볼륨(20%, 20,448개 슬라이스)으로 분할

 

Model Evaluation

 - ROC 곡선을 사용하여 평가

 - 민감도, 특수성, 정확도 및 양(PPV)과 음(NPV) 예측값이 0.5 임계값으로 계산

 

Results

- ROC 곡선과 같이 뇌 MRI 영상 품질을 분류하는 데 좋은 정확도를 제공89

 - 모든 영상 평면을 결합한 앙상블 모델에 대해 AUC는 0.90이었고, 개별 평면을 사용한 훈련은 0.89(축), 0.91(코로날), 0.87(시상)의 AUC를 산출

 -  Figure 4 shows images from eight different subjects from the ABIDE dataset in which the DL model produced predictions in agreement with the raters, along with the predicted quality score. 그림 4: 허용 가능한 품질(a–d)의 이미지와 허용되지 않는 품질(e–h)의 이미지를 보여주는 WEARD 데이터 세트의 일치 품질 분류 사례. DL 모델에서 예측한 영상 화질 점수가 나와 있습니다. 점수가 0에 가까우면 이미지 품질이 높음을 나타내고 1에 가까우면 품질이 낮음을 나타냅니다.

 - 그림5는 슬라이스별로 결과,  0(허용 가능한 이미지 품질)과 1(허용할 수 없는 품질)을 중심으로 개별 슬라이스의 품질 점수의 클러스터링

 

데이터셋의 결과를 낸것

 

<틀린 MRI사진>

 

- 1번은, 이미지에 보이는 적당한 모션 아티팩트가 양쪽 평가자에 의해 누락되거나 무시되었지만,앙상블 DL 모델에 의해 심각하다고 간주

 - 다른 경우는 허용되지 않는 것으로 분류되었지만 DL 모델에 의해 받아들여졌음

-  34건에서 DL모델 예측이 전문가 라벨과 일치하지 않았고, 이 중 Raters 1과 2는 12건(35%, 표 2)에서 의견이 일치하지 않았

 - 반면에 DL 모형이 라벨에 동의한 179건의 사례에서 평가자들은 45건(25%)에서 동의하지 않았다.

 - DCNN의 평균 훈련 시간은 각 평면(638개 볼륨)에 대해 6시간이었지만, 사전 처리된 하나의 뇌 볼륨에 대한 영상 품질 예측은 훈련된 모델에서 10msec 미만이 걸렸음

 

Discussion

 -  high classification performance (accuracy of 0.84) multicenter image database 

 - 각각 다른 연구에서 평가한게 있음. ABIDE dataset (accuracy of 0.84), CombiRx data (accuracy of 0.73)

 

 - 둘다 쓰면 좋은데 차이가 있을 수 있어서 같이 사용하는게 우려가 될 수 있음.

  - 코호트로부터 획득한 독립적인 다중 센터 데이터에 대한 결과에 의해 추가로 확인되었다. WEARE 데이터 세트(정확도 0.84)의 테스트 데이터에 대한 성능은 CombiRx 데이터(정확도 0.73)의 독립 테스트 세트보다 우수

 

 - 이미지 데이터베이스에서 DL 모델의 성능은 기존의 기계 학습 방법(표 3)과 비슷하지만 DL 모델은 품질 기능을 수작업으로 만들 필요가 없다

 - 다른데에서 한것들 예시가 있음. 그러나 이 모든 방법은 수작업으로 만든 이미지 품질 메트릭을 사용하여 이미지 품질을 평가했으며, 선택은 주관적이고 계산에는 많은 시간이 소요될 수 있다

 - 우리의 모델을 사용하여 달성된 높은 성능은 머리와 복부 MRI의 모션 아티팩트의 자동 검출, T2 가중 간 MRI,15의 자동 이미지 품질 평가 및 뇌 MRI16의 모션 아티팩트의 검출에 대한 최근 연구에서 보고된 바와 같이 이미지 품질 평가에서 DL의 새로운 역할을 지원한다(표 3).

 - DL 모델의 훈련에는 많은 시간(6시간)이 소요되었다. 그러나 네트워크가 훈련되면 빠른 예측 시간이 실시간 영상 품질 평가를 위한 빠른 스크리닝에 MRI 기술자에게 도움

 - 애플리케이션에 따라 결정 임계값을 최적화하여 더 민감하거나 구체적인 품질 점수를 제공

- 3D 네트워크는 품질 점수를 직접 생성하고 개별 슬라이스의 점수를 결합할 필요성을 없앨 수 있지만, 서로 다른 이미지 방향을 평가할 수 있기 때문에 2D 네트워크를 사용하기로 결정했다. 또한 계산 효율성이 높아 3D 네트워크에 비해 훈련에 훨씬 적은 메모리와 처리 능력을 필요로 한다.

반응형