EHR data?
=> Electronic Health Records (전자의료기록)
<초점>
0. EHR 데이터의 특징
1. EHR에서 GAN의 특징
2. EHR에서 GAN의 시간에 따른 파생 모델들 (GAN, medGAN, EHR-M-GAN 등등)
+ 각각의 모델에서 사용한 EHR data 특징, GAN에 어떤 것을 추가했는가
0. EHR 데이터의 특징
참고 논문: A review of Generative Adversarial Networks for Electronic Health Records: applications, evaluation measures and data sources [2022]
https://arxiv.org/abs/1703.06490
Generating Multi-label Discrete Patient Records using Generative Adversarial Networks
Access to electronic health record (EHR) data has motivated computational advances in medical research. However, various concerns, particularly over privacy, can limit access to and collaborative use of EHR data. Sharing synthetic EHR data could mitigate r
arxiv.org
섹션 2: GAN의 작동 원리와 아키텍처 검토
섹션 3: EHR 데이터 유형에 대한 개요
섹션 4: 다양한 EHR 애플리케이션에 GAN을 사용한 연구 논문을 검토
섹션 5: 일반적으로 사용되는 평가 지표 목록
섹션 6: 문헌에서 가장 일반적으로 사용되는 데이터 소스를 논의
섹션 7: EHR용 GAN의 과제와 향후 방향에 대해 논의
EHR data: 표 형식 또는 시계열 형식으로 표시될 수 있다.

표 형식: 인구통계학적 특징, 집계된 평균 또는 생체 신호의 일회성 측정값과 같이 환자의 진료 상황을 나타내는 정보
시계열 데이터: 시간에 따른 질병 진행을 나타내는 데 사용
위의 두 형태의 데이터 모두 불연속형, 범주형 또는 연속형일 수가 있다.
불연속형 column: 위 그림의 (a)와 (d), 연령이나 월별 방문 횟수와 같이 정수로 계산하여 저장할 수 있는 값
범주형 column: (b)와 (d), 성별이나 인종과 같이 범주의 수가 한정되어 있는 경우
연속형 column: (c)와 (d), 측정값에 의해 값이 얻어지는 변수로, 정수로 제한되지 않음. (알부민, 체온 등등)
EHR의 또 다른 특징: 한 환자에게 동일한 방문에 대해 표형식의 데이터와 시계열 데이터가 모두 기록되어 있을 수 있다.
1. EHR에서 GAN의 특징
참고 논문: Generating synthetic mixed-type longitudinal electronic health records for artificial intelligent applications
https://www.nature.com/articles/s41746-023-00834-7
초기 EHR용 GAN: 진단 및 청구 ICD와 같은 구조화된 불연속 표 형식의 EHR을 생성하는 데 중점을 두고 작업.
하지만 GAN은 두 가지 이유로 혼합형 EHR을 다루는 데에 한계가 존재한다.
(1) GAN은 생성기와 판별기의 네트워크 아키텍처가 완전히 구별 가능해야 하기 때문에, 일반적으로 실제 가치의 연속 데이터를 생성하는 데 한계가 있다. 특히 EHR에 흔히 나타나는 ICD 코드와 같은 이산 토큰의 시퀀스를 직접 생성하는 데에는 큰 한계가 존재한다.
이전에 원본 데이터에서 표현을 학습하여 이산적 환경에서 역전파를 가능하게 함으로 이 문제를 피할 수 있지만, 이질적인 특성을 가진 혼합형 시계열의 공동 모델링을 위한 생성 접근 방식은 여전히 부족하다
=> 암튼 이산 토큰의 시퀀스를 직접 생성하는 데에는 한계가 존재한다는 것
(2) 혼합형 임상 시계열은 상호 연관성이 높으므로 서로간의 상관관계를 파악시키는게 중요하다.
e.g. medGAN: 이진 또는 불연속 카운트 기능이 있는 표 형식의 EHR을 생성하기 위한 기존 GAN의 비호환성을 해결한 최초의 GAN 아키텍처 중 하나.
CTGAN
참고 논문1.
"CTGAN으로 합성 데이터를 생성하고 학습한 모델과 원데이터로 학습한 모델의 비교"
"CTGAN으로 만든 데이터로 학습한 모델의 유사도가 0.9044로 더 높았다"
"프라이버시 결과값은 0.9988"
"CTGAN EHR데이터 합성 데이터로 쓸 수 있다!"
참고 논문2.
https://journal.esrgroups.org/jes/article/view/3797
The Effect of Combined Synthetic Tabular Data Generated Using CTGAN Model with Actual Data on Performance of DHF, Varicella, and
There are several quickly spreading illnesses such as DHFs spread by mosquitoes, COVID-19 spreads through respiratory droplets and contact with contaminated surfaces, and Varicella spreads by direct touch. The transmission rate of these diseases can be red
journal.esrgroups.org
medGAN
참고 논문: Generating Multi-label Discrete Patient Records using Generative Adversarial Networks
https://arxiv.org/pdf/1703.06490
"GAN은 최근 고품질 합성 이미지를 생성하는 데 있어 인상적인 성능을 보이는 것으로 나타났다"
"VAE, PixelRNN, PixelCNN 등의 인기 모델보다 성능이 좋다"
"하지만 이산 변수의 분포를 학습하는 데는 사용되지 않는다"
"따라서 우리는 고차원의 다중 레이블 불연속 변수를 생성하는 신경망 모델인 medGAN을 도입했다."
: 자동 인코더와 GAN을 결합해서 고차원 다중 라벨 이산 샘플을 생성하는 모델
: 이진 변수와 카운트 변수를 모두 처리할 수 있다
: 미니배치 평균화를 사용했다

비교한 모델들

EHR-M-GAN
"우리 모델은 혼합형 환자 궤적 간의 시간적 상관관계를 파악하며 데이터를 합성합니다"

: 이중 가변 자동 인코더(dual-VAE)를 통해 서로 다른 관측 공간의 데이터를 가역적인 저차원 공유 잠재 공간으로 매핑
: 그 이후 시간적 역학을 포착하기 위해 결합 순환 네트워크(CRN)을 기반으로 구축된 순차적으로 결합된 생성기를 사용.
: 또한 중환자실 사망률이나 병원 재입원 결과와 같은 조건부 EHR 환자 데이터를 합성할 수 있는 조건부 버전의 모델인 EHR-M-GANcond도 구현했다.
https://github.com/jli0117/ehrMGAN
GitHub - jli0117/ehrMGAN: code for ehrMGAN
code for ehrMGAN. Contribute to jli0117/ehrMGAN development by creating an account on GitHub.
github.com
비교한 모델들과 사용한 데이터가 나와있는 표

MIMIC-III 데이터, elCU 데이터, HiRID 데이터
eICU Collaborative Research Database
Exploring patient care The eICU Collaborative Research Database holds data associated with over 200,000 patient stays, providing a large sample size for research studies.
eicu-crd.mit.edu
https://physionet.org/content/hirid/1.1.1/
HiRID, a high time-resolution ICU dataset v1.1.1
physionet.org
VGAE
Synthetic electronic health records generated with variational graph autoencoders
https://www.nature.com/articles/s41746-023-00822-x
"GAN으로 생성된 데이터는 기본적으로 연속형이며, 불연속형 결과를 생성하려면 자동인코더 또는 LSTM 생성기와 페어링 해야합니다."
"가변 그래프 자동 인코더(VGAE)는 훈련하기 쉽고, 다른 그래프 학습 문제에 성공적으로 적용되었습니다"

MIMIC-IV 사용
'AI' 카테고리의 다른 글
| [논문 리뷰] DAG-WGAN에 대하여 (1) | 2024.10.10 |
|---|---|
| [논문 리뷰] DAG-GAN에 대하여 (1) | 2024.10.10 |
| [논문리뷰] 의료 데이터에 적합한 medGAN (method review) (1) | 2024.09.03 |
| 베이지안 네트워크 이해하기 (1) - BN으로 합성 데이터 만들기 실습 (0) | 2024.08.21 |
| [딥러닝] Numpy Basic Concepts (0) | 2024.04.16 |