✨ ABSTRACT
○ Developing a rich dataset : CXR image, transcribed radiology report text, radiologist's dictation audio and eye gaze coordinates data.
○ Validating dataset by using deep learning experiments .
✨ BACKGROUND
○ In the past five decades eye-tracking has been extensively used in radiology for education, perception understadning, and fatigue measurement.
1. Waite, S. A. et al. Analysis of perceptual expertise in radiology–Current knowledge and a new perspective. Frontiers in human neuroscience 13, 213 (2019).
2. Van der Gijp, A. et al. How visual search relates to visual diagnostic performance: a narrative systematic review of eye-tracking research in radiology. Advances in Health Sciences Education 22, 765–787 (2017).
3. Krupinski, E. A. Current perspectives in medical image perception. Attention, Perception, & Psychophysics 72, 1205–1217 (2010).
4. Tourassi, G., Voisin, S., Paquit, V. & Krupinski, E. Investigating the link between radiologists’ gaze, diagnostic decision, and image content. Journal of the American Medical Informatics Association 20, 1067–1075 (2013).
○ More recently, efforts have used eye-tracking data to improve segmentation and disease classification in Computer Tomography(CT) by integrating them in deep learning techniques.
1. Khosravan, N. et al. A collaborative computer aided diagnosis (C-CAD) system with eye-tracking, sparse attentional model, and deep learning. Medical image analysis 51, 101–115 (2019).
2. Stember, J. N. et al. Eye Tracking for Deep Learning Segmentation Using Convolutional Neural Networks. Journal of digital imaging 32, 597–604 (2019).
3. Aresta, G. et al. Automatic lung nodule detection combined with gaze information improves radiologists’ screening performance. IEEE Journal of Biomedical and Health Informatics (2020).
4. Mall, S., Brennan, P. C. & Mello-Thoms, C. Modeling visual search behavior of breast radiologists using a deep convolution neural network. Journal of Medical Imaging 5, 035502 (2018).
So this paper presents a new dataset that can help improve the way machine learning models are developed for radiology applications and this paper demonstrates its use in some popular deep learning architectures.
✨ METHODS
- MIMIC-CXR와 MIMIC-IV ED data base를 사용해 1,083개 케이스를 선정.
- 이후 전문의의 eye tracking data와 voice report 작성.
- 수집된 데이터는 gaze data와 voice data, voice to text data로 구성. (전문의의 실제 진단 과정에 비해 additional effort를 최소화하기 위한 과정.)
- 데이터 수집은 여러 세션에 걸쳐 이루어졌고, 각 세션은 최대 30개의 이미지로 구성.
- 데이터 측정 중에는 random하게 calibration image를 보여줌. (to measure eye gaze error by using the fixation coordinates of the last entry of each calibration image.)
- 사용된 eye tracker는 GP3(Gaze point 3)으로, 기기와 함께 사용할 수 있게 만들어진 Gazepoint Analysis UX edition software를 같이 이용했다.
소프트웨어는 눈의 움직임이 멈추고 fixation이 시작되는 지점을 자동으로 감지하고, 눈이 다음 fixation으로 움직이기 시작하는 즉시(saccade가 감지될 때) fixation의 기록을 중단하며, 이렇게 하나의 fixation을 위한 여러 gaze points가 모이면 이 점들의 위치의 평균을 하나의 fixation 위치로 통합하여 eye gaze sheet에서 추출된 fixations sheet를 제공한다.
✨ TECHNICAL VALIDATION (음성 분석 부분 생략. 해당 내용은 원문 참고.)
[Statistical analysis on fixations]
1. They examined the average number of fixations made in each disease condition and found that the expert made significantly more overall fixations in the two diseased conditions than in the normal condition(p<0.01) and that fixations for the abnormal cases are mainly concentrated in anatomical regions (i.e., lungs and heart) that are relevant to the diagnosis, rather than distributed at random.
2. They calculated the number of fixations that their coordinates fall into each anatomical zone found in bounding_boxes.csv.
3. They performed t-test for each anatomical structure between condition pairs: i) Normal vs. Pnumonia, ii) Normal vs. CHF, iii) Pneumonia vs CHF.
✨ USAGE IN MACHINE LEARNING
i) Temporal eye gaze fixation heatmaps
temporal heatmaps과 CRX image data를 각각 CNN에 넣고 fixed vector v_CXR과 heatmap u_eyegaze를 prediction함.
이때 각 heatmap은 similar convolution layer를 거친 다음 1-layer bidirectional LSTM with self-attention으로 합해 짐.
final classification 전에 v_CXR과 u_eyegaze를 concatenation.
CNN: 64 filters of kernel size 7, stride 2, max-pooling, batch normalization and a dense layer of 64 units.
Train with Adam, 0.001 initial learning rate, fixed decay, 16 batch size and 0.5 dropout.
* Ecaluation metric: AUC(Area Under the ROC Curve).
결과적으로 temporal heatmaps를 함께 사용했을 때가 only CXR만 사용했을 때보다 5% AUC improvement가 나타남.
a. Temporal model, b. Baseline.
ii) Static eye gaze fixation heatmaps
Encoding과 Bottleneck arm of the U-Net을 combined하는 것을 기반(pre-trained EfficientNet-b0 사용)으로
Eye Gaze Probability Prediction 출력과 multiclass classification을 같이 할 수 있도록 설계.
둘을 합한 것이 feature encoder로 작동. Deconvolution(3번의 conv. 이후 upsampling으로 구성)으로 gaze probability 출력.
average pooling 이후 flatten, dropout, and linear output layers.
이와 비교할 baseline network는 encoder와 bottleneck 다음 바로 classification head로 구성.
결과적으로 AUC에서는 U-Net 기반과 baseline을 비교했을 때 큰 차이 없이 유사한 성능을 띔.
그러나 probability map과 Grad-CAM을 비교한 결과가 유의미 함.
a. CHF, b. Pneumonia, c. Normal.
실제 eye gaze movements로 부터 추출된 Static Heatmap과 비교했을 때, Grad-CAM은 주요한 영역을 잘 판별하지 못하고 있는 반면, UNet기반 gaze probability map은 주요 영역을 잘 표시하고 있는 것을 볼 수 있다. 이는 static heatmap을 attetntion map의 ground-truth로 사용하는 것을 보여주는 실험이다.
✨ LIMITATIONS
1. 전문의 1명으로 이루어짐. It can bias dataset.
2. Gazepoint software가 DICOM을 지원하지 않아서 이미지를 DICOM이 아닌 png 형식으로 실험함. 때문에 windowing techniques를 쓸 수 없었음.
3. data set이 PA CXR에 국한됨.