AI

[개념 공부] Bayesian Network를 위한 통계 정리

EddyLee 2024. 10. 13. 14:22

 

Bayesian Network란?

"베이즈 네트워크" 혹은 "빌리프 네트워크" 혹은 "방향성 비순환 그래픽 모델"이라고 불리는 해당 모델은

랜덤 변수의 집합과 방향성 비순환 그래프 (Directed Acyclic Graph, DAG)를 통하여 그 집합을 조건부 독립으로 표현하는 확률의 그래픽 모델이다.

 

예를 들어서 데이터 형태를 봤을 때, '나이'가 '몸무게'에 보통 영향이 있다고 판단하면 베이즈 네트워크는 '나이'와 '몸무게'를 node로 지정, node를 연결하는 arc를 통해 DAG를 생성한다. 즉, 변수 간의 조건부 의존성을 표현할 수 있게 된다.

다른 더 구체적인 예로 들어보면 다음과 같다.

스프링클러가 나오는 이벤트, 비가 오는 이벤트, 잔디가 젖은 이벤트가 있다고 하자.

그리고 '잔디가 젖음'은 '비'가 왔을 때 혹은 '스프링클러'가 돌아갔을 때 이므로 DAG가 형성되고,

'비'가 왔을 때, '스프링클러'는 작동하지 않으므로 이 둘사이에 또 다른 DAG가 형성된다.

(비가 오네요! -> 스프링클러를 끔. 역으로 스프링클러를 켬 or 끔 -> 비옴 or 비가 안 옴 이런 경우는 없기에 반대의 arc는 형성되지 않는다.)

가운데에 있는 그래프가 바로 DAG, 각 노드 밑에 있는 table이 바로 Conditional Probability Table(CPT)이다.

 

이것을 우리는 결합 확률 함수로 나타낼 수 있는데, 나는 종이로 표현해보았다.

 

 

이런 식으로 BN은 어떠한 이벤트, 즉 node에 대한 값을 구할 때 위와 같은 방식으로 구할 수 있음을 알 수 있다.

 

 

참고: https://en.wikipedia.org/wiki/Bayesian_network

 

Bayesian network - Wikipedia

From Wikipedia, the free encyclopedia Statistical model A Bayesian network (also known as a Bayes network, Bayes net, belief network, or decision network) is a probabilistic graphical model that represents a set of variables and their conditional dependenc

en.wikipedia.org

 

 

 

조건부 확률 (Conditional Probability)과 베이즈 통계

조건부 확률은 두 확률변수 X, Y가 있을 때, 그 중 하나가 발생할 때 다른 하나가 발생할 확률을 말한다.

X가 발생했을 때 Y가 발생할 조건부 확률을 표현해보자.

우리가 아는 가장 간단한 표기는 P(Y | X)일 것이다. (이것은 사후확률, posterior probability라고 한다. 반대로 P(X | Y) 이것은 likelihood, 우도라고 한다.)

 

X가 발생한다는 것은 X가 특정한 값인 x를 갖는다는 말이고, Y가 발생한다는 말은 y값을 갖는다는 말이니 아래와 같이 표현할 수도 있다.

P(Y=y | X=x)

 

"X, Y의 조건부 확률은 X, Y의 결합확률을 조건에 해당되는 변수의 주변확률로 나누어 얻는다."

이때 결합 확률 (Joint probability or conjoint probability) : P(X, Y)

주변 확률 (Marginal probability): 결합확률이 있다는 조건에서 존재, 결합확률표에서 한 확률변수의 확률만을 고려하는 것!

 

결합확률과 주변확률이 궁금하다면, 아래 블로그를 참조하면 좋을 것 같다. 이해가 잘 됨.

윤영민 교수의 사유공간,  http://infoso.kr/?p=3794&

 

결합확률, 주변확률, 조건부 확률: 이산확률변수

교차표(cross-table) 두 개의 이산확률변수 X, Y가 결합하여 아래와 같은 교차표가 형성되었다고 하자. 각 칸(cell)에는 두 확률변수 값()을 충족하는 사상(事象, event)이 들어간다. 그것을 총 사상의 수

infoso.kr

 

 

 

이러한 정보를 가지고 이제 다시 베이즈 네트워크를 한번 봐보자.

 

 

 

베이즈 통계를 공부하고 나면, 베이지안 네트워크의 CPT가 어떻게 생길지 이제 감이 잡힌다.

데이터의 형태에 따라 무수히 많은 CPT가 생길 것이다.

 

참고:

http://infoso.kr/?p=3943

 

베이즈 통계(2): 조건부 확률 가지고 놀기

베이즈 통계는 조건부 확률(conditional probability)에서 출발한다. 때문에 조건부 확률은 베이즈 통계의 기초 중의 기초이다. 조건부 확률에 익숙해질수록 베이즈 통계가 가깝게 다가온다. 그래서 이

infoso.kr