AI

[논문 리뷰] 연속형, 불연속형 feature에서도 동작하는 GANBLR++

EddyLee 2024. 10. 11. 16:33

제목: GANBLR++: Incorporating Capacity to Generate Numeric Attributes and Leveraging Unrestricted Bayesian Networks

저자: Yishuo Zhang, Nayyar Zaidi, Jiahui Zhou, Gang Li

https://epubs.siam.org/doi/10.1137/1.9781611977172.34

 


G와 D 모두 BN이던 GANBLR은 범주형 feature에서만 동작했다.

따라서 해당 논문에선 Dirichlet Mixture Model을 이용해서 GANBLR++을 개발.

 


 

"GAN 기반 모델은 컨볼루션 신경망(CNN)과 같은 심층 인공 신경망(ANN)을 활용하여 데이터의 명백한 구조를 활용하여 인공(또는 가짜) 데이터를 생성하는 방법을 학습합니다."

 

하지만 표 형식 데이터 세트에는 이런 구조가 없다는 한계1, 그리고 숫자, 서수, 범주 등과 같은 다양한 유형의 속성으로 구성되어 있다는 한계2가 존재하여 GAN이 학습하는데 장애가 있다.

 

실제로 CTGAN, TableGAN, medGAN의 모델은 표 형식 데이터 생성 작업에 대한 State-of-The-Art(SOTA) 결과를 도출함.

 

GANBLR: 이전의 최첨단 방법보다 크게 개선됐다.

하지만 여전히 한계,

(1) 범주형 속성만 생성할 수 있다. (반면 CTGAN은 범주형 연속형 모두 생성 가능)

(2) 모든 베이지안 네트워크를 통합할 수 있는 일반 모델로 제안됐지만, GANBLR은 제한된 BN으로만 훈련 및 테스트.

 

따라서 우리는

(1) Dirichlet Mixture Model을 이용하여 BN을 통해 수치 특징을 생성하는 GANBLR++라는 모델 확장을 제안

(2) 제한되지 않는 BN을 사용하여 다 해볼 것이다.

 


 

<GANBLR의 숫자 속성 처리 방법>

 

 

숫자를 이산화 -> 실제 값 대신 이산형 값을 생성함

실제로는 구간 차원에 있는 값의 평균/중앙값/모드를  취해서 숫자값을 생성하지만 중복된 값이 생성되게 된다.

그래서 GANBLR에서 숫자 데이터를 생성하는 방법이 필요하다

=> 따라서 GANBLR 구조에서 숫자 특성을 만들 때, Dirichlet Mixture Model (DMM)을 사용하도록 한다.

 

먼저 다양한 모드를 식별하여 숫자 특징 분포를 모델링한 다음, 각 모드에 대한 기여도에 따라 모든 숫자 값을 표현하다.

샘플링하는 동안 특정 모드의 분포에서 수치 특징의 이산값을 직접 샘플링 할 수 있다.

 


Proposed Methods

Conditional-GAN에서 영감을 받아, Dirichlet Process Gaussian Mixture Model인 DP-GMM을 기반으로  GANBLR의 생성자 구성요소에 수치 샘플링을 사용할 것이다.

BN 비모수 모델은 제공되는 데이터의 양에 따라 파라미터의 수가 자유롭게 증가하는 모델이다.

VGM과 표준 GMM에서처럼 수의 파라미터를 조정하는 대신, DP-GMM의 학습 과정에서 더 많은 데이터가 관측됨에 따라 군집수가 증가하도록 허용한다.

 

디리클레 프로세스는 주어진 숫자 속성에 대한 군집 중심(분포의 평균값)을 나타내기 위해 몇 개의 무한한 점을 샘플링한다. 

클러스터 중심이 그려지면 해당 클러스터 중심을 중심으로, 기우스 분포를 생성할 수 있다.

마지막으로 관측된 데이터 포인트는 추론 중에 각 클러스터에 할당되어 최적화된 클러스터 수를 얻을 수 있는 가능성을 최대화한다.