AI

[논문 리뷰] DAG-GAN에 대하여

EddyLee 2024. 10. 10. 17:21

제목: DAG-GAN: CAUSAL STRUCTURE LEARNING WITH GENERATIVE ADVERSARIAL NETS

저자: Yinghua Gao, Li Shen, Shu-Tao Xia

https://ieeexplore.ieee.org/document/9414770

 

DAG-GAN: Causal Structure Learning with Generative Adversarial Nets

Learning Directed Acyclic Graph (DAG) from purely observational data is a critical problem for causal inference. Most existing works tackle this problem by exploring gradient-based learning methods with a smooth characterization of acyclicity. A major shor

ieeexplore.ieee.org


 

Review 초점: Proposed Method를 위주로.

(1) GAN에 DAG라는 metadata를 어떻게 넣었을까? 

(2) DAG는 GAN에서 어떻게 정보를 모델에게 줄까? 프로세스가 어떻게 되는지

 


Abstract

데이터에서 인과 관계 추론에 있어 DAG를 학습하는 것은 중요하다.

기존에는 이 학습을 gradient-based 학습 방법을 탐색함으로써 진행했음. (비순환성을 부드럽게 특성화 함)

하지만 이 방법은 단일 샘플로 SEM을 독립적으로 최적화하고 서로 다른 샘플 간의 상호 작용을 무시한다는 것.

SEM = Structural Equation Model

 

따라서 이 논문에선..

(1) 분포 최적화의 관점에서 DAG 구조 학습을 고려하고, DAG 구조를 데이터에서 검출하기 위해 DAG-GAN을 설계했다.

(2) DAG-GAN의 내쉬 평형 특성을 분석

(3) 서로 다른 샘플 간의 상호작용을 활용하는 새로운 점수 함수 제안

(4) 최신 DAG 학습 방법과 비교해서 DAG-GAN의 효율성 검증

 

 

Introduction

데이터로부터 DAG를 학습하는 것은 중요하다.

기존 방법은 PC 및 FCI와 같은 조건부 독립성 검정으로 인한 가짜 상관관계로 어려움을 겪음.

Zheng은 가중 인접 행렬의 미량 지수로 비순환성의 부드러운 특성화를 발견하고, 점수 기반 DAG 학습을 위한 글로벌 연속 최적화인 NOTEARS를 개발함.

NOTEARS는 선형 구조 방정식 모델을 활용하여 인과 메커니즘을 모델링한다.

 

이 방법은 인과 메커니즘에 따라 생성된 분포로 기본 데이터 분포를 복구하는 것이다.

하지만 해당 방법은 여전히 유도된 DAG가 대표성을 띄지 못한다는 것.

 

=> 따라서 이 연구에선 분포 최적화 관점에서 DAG 구조 학습을 개선하고자 한다.

여기선 DAG-GAN을 도입할 것인데, 생성기를 사용해 인과적 생성 메커니즘을 모방한다. 생성기의 출력은 실제 데이터와 동일한 DAG를 공유하는 의사 샘플이다.

판별기는 샘플이 생성기로부터 나왔는지 구별하는 것. 

또한 해당 논문에선 생성기가 파라미터화한 인접 행렬의 비순환성을 보장하기 위해 제약 조건을 적용하고 증강 라그랑지안 방법으로 최적화 문제를 해결한다.

 

 

논문에서 사용할 notation은 다음과 같다

 

 

Method : DAG-GAN

생성자 구조

인과 구조 방정식 모델 (SEM)을 모방하기 위해 MLP를 사용한다.

입력으로 주어진 데이터 X로부터 X_j라는 SEM을 simulate하는 변수를 생성한다

 

 

 

이때 시그마는 활성화함수, A는 인접행렬을 의미함.

 

그리고 W_ij라는 인접행렬을 새롭게 정의하는데, 

이것의 의미는 첫 번째 가중치의 행렬에서 i번째 열의 크기를 의미한다.

W_ij가 0이라면 이는 i번째 열이 0으로만 구성되있음을 의미하고, i와 j 사이에 연결이 없다는 뜻이다.

중요한 것은, 인과관계가 순환을 일으키지 않도록 해야 한다.

 

 

판별자는 뭐 샘플이 어디에서 왔는지 판별하는 역할을 함

 

 

DAG-GAN의 훈련과정

G와 D 사이의 최소-최대 게임으로 구성된다.

V(θ,ϕ) : 최소-최대 수식 (minimax)를 소개하면 다음과 같다.

여기서 θ는 생성자의 매개변수, ϕ는 판별자의 매개변수를 의미한다.

 

 

마지막으로 수도코드를 보이며 마무리..

 

 

해당 논문은 DAG를 학습하는 GAN으로, 그 과정을 작성했다.

하지만 내가 생각한 metadata를 GAN에게 준다는 개념은 없었음.