제목: GANBLR++: Incorporating Capacity to Generate Numeric Attributes and Leveraging Unrestricted Bayesian Networks
저자: Yishuo Zhang, Nayyar Zaidi, Jiahui Zhou, Gang Li
https://epubs.siam.org/doi/10.1137/1.9781611977172.34
G와 D 모두 BN이던 GANBLR은 범주형 feature에서만 동작했다.
따라서 해당 논문에선 Dirichlet Mixture Model을 이용해서 GANBLR++을 개발.
"GAN 기반 모델은 컨볼루션 신경망(CNN)과 같은 심층 인공 신경망(ANN)을 활용하여 데이터의 명백한 구조를 활용하여 인공(또는 가짜) 데이터를 생성하는 방법을 학습합니다."
하지만 표 형식 데이터 세트에는 이런 구조가 없다는 한계1, 그리고 숫자, 서수, 범주 등과 같은 다양한 유형의 속성으로 구성되어 있다는 한계2가 존재하여 GAN이 학습하는데 장애가 있다.
실제로 CTGAN, TableGAN, medGAN의 모델은 표 형식 데이터 생성 작업에 대한 State-of-The-Art(SOTA) 결과를 도출함.
GANBLR: 이전의 최첨단 방법보다 크게 개선됐다.
하지만 여전히 한계,
(1) 범주형 속성만 생성할 수 있다. (반면 CTGAN은 범주형 연속형 모두 생성 가능)
(2) 모든 베이지안 네트워크를 통합할 수 있는 일반 모델로 제안됐지만, GANBLR은 제한된 BN으로만 훈련 및 테스트.
따라서 우리는
(1) Dirichlet Mixture Model을 이용하여 BN을 통해 수치 특징을 생성하는 GANBLR++라는 모델 확장을 제안
(2) 제한되지 않는 BN을 사용하여 다 해볼 것이다.
<GANBLR의 숫자 속성 처리 방법>

숫자를 이산화 -> 실제 값 대신 이산형 값을 생성함
실제로는 구간 차원에 있는 값의 평균/중앙값/모드를 취해서 숫자값을 생성하지만 중복된 값이 생성되게 된다.
그래서 GANBLR에서 숫자 데이터를 생성하는 방법이 필요하다
=> 따라서 GANBLR 구조에서 숫자 특성을 만들 때, Dirichlet Mixture Model (DMM)을 사용하도록 한다.
먼저 다양한 모드를 식별하여 숫자 특징 분포를 모델링한 다음, 각 모드에 대한 기여도에 따라 모든 숫자 값을 표현하다.
샘플링하는 동안 특정 모드의 분포에서 수치 특징의 이산값을 직접 샘플링 할 수 있다.
Proposed Methods
Conditional-GAN에서 영감을 받아, Dirichlet Process Gaussian Mixture Model인 DP-GMM을 기반으로 GANBLR의 생성자 구성요소에 수치 샘플링을 사용할 것이다.
BN 비모수 모델은 제공되는 데이터의 양에 따라 파라미터의 수가 자유롭게 증가하는 모델이다.
VGM과 표준 GMM에서처럼 수의 파라미터를 조정하는 대신, DP-GMM의 학습 과정에서 더 많은 데이터가 관측됨에 따라 군집수가 증가하도록 허용한다.
디리클레 프로세스는 주어진 숫자 속성에 대한 군집 중심(분포의 평균값)을 나타내기 위해 몇 개의 무한한 점을 샘플링한다.
클러스터 중심이 그려지면 해당 클러스터 중심을 중심으로, 기우스 분포를 생성할 수 있다.
마지막으로 관측된 데이터 포인트는 추론 중에 각 클러스터에 할당되어 최적화된 클러스터 수를 얻을 수 있는 가능성을 최대화한다.

'AI' 카테고리의 다른 글
| [딥러닝] 퍼셉트론 기본 개념과 XOR (2) | 2024.11.11 |
|---|---|
| [개념 공부] Bayesian Network를 위한 통계 정리 (1) | 2024.10.13 |
| [논문 리뷰] BN을 생성기 및 판별기로 통합한 GANBLR (1) | 2024.10.11 |
| [논문 리뷰] DAG-WGAN에 대하여 (1) | 2024.10.10 |
| [논문 리뷰] DAG-GAN에 대하여 (1) | 2024.10.10 |