AI

머신러닝에서의 Causality(인과)

EddyLee 2026. 6. 4. 15:29

지난번 포스팅에서 상관분석을 하는 방법을 알아봤다. 간단하게, 피어슨 상관계수를 통한 두 변수의 상관관계를 판단하는 것이다.

 

그렇다면 인과관계는 뭘까? 먼저 정의먼저 살펴보자.

(정의) 하나의 사건(원인)이 다른 사건(결과)를 직접적으로 만들어내는 관계를 뜻하며, 단순한 상관관계를 넘어 원인과 결과가 명확히 연결되어야 한다.

나는 상관관계와 인과관계의 차이를 떠올리다보면, 어느새 머릿속에 복잡해지곤 했다. 상관관계가 곧 인과관계 아닐까? 라는 의문이 들 때도 있었다. 

 

그렇다면, 상관관계와 인과관계의 차이는 어떻게 될까?

1. 상관관계 vs 인과관계

사례를 보면 그나마 이해가 된다.

한 연구자가 아이스크림 판매량의 연중 증감 추이를 확인했다. 그리고 연중 익사 사망자의 증감 추이를 함께 놓고 두 변인 간의 상관분석을 시행해 보았다. 결과는 놀라웠다. 무서울 정도로 명백한 상관관계가 나타나고 있었다. 아이스크림 판매량이 급증하는 동안, 익사 사망자 수도 함께 증가하고 있었으며, 판매량이 감소하는 동안 익사 사망자 수도 감소하고 있었던 것이었다.

연구자는 몸서리를 치면서 다음과 같은 결론을 내렸다.
"익사 사망자의 증감은 아이스크림이 그 원인이다."

실제로 두 변인 사이에는 상관관계가 존재한다. 하지만 연구자는 제3의 변인인 "여름의 온도"를 전혀 고려하지 않았다. 이 여름의 온도라는 것이 두 변인의 원인이었던 것이다. 다시 말해, 상관관계 연구만 해놓고 인과관계라고 착각을 했던 것이다.

Correlation과 Causation는 달라! ❘ 출처: https://xkcd.com/552/

 

정리해보면, 인과관계를 가지는 변수들끼리는 상관관계를 보장하지만, 상관관계를 가진다고 해서 인과관계를 보장하지는 않는다.

다른 표현으로, 상관관계는 인과관계의 필요조건이라는 것이다.

상관관계와 인과관계의 포함관계 ❘ 출처: https://opentutorials.org/course/4548/28929

즉, 변인 A와 변인 B가 상관관계에 있다고 해서 한쪽 변인이 다른 한 쪽의 변인의 원인임이 반드시 입증되지 않는다는 뜻이다.

2. 인과관계

상관관계는 때로 인과관계가 될 수 있지만, 인과관계가 되기 위해선 여러 조건을 성립해야 한다.

  • 공변성(covariation): 두 가지 변인이 함께 움직이는 경향을 보여야 한다. A가 변화할 때 B도 함께 변화해야 한다. 일단 공변성이 드러난다면, 인과관계가 없을 수도 있지만, 인과관계를 의심할 수 있다
  • 선후관계(time order): 시간적으로 어느 하나가 변화했을 때 다른 하나가 뒤따라 변화하는 관계여야 한다. 즉, A의 변화에 의해 B의 변화가 수반되어야 한다. 먼저 변화한 것은 원인이 되고, 나중에 변화한 쪽의 변인이 결과가 된다고 의심할 수 있다
  • 비허위성(non-spuriousness): 두 변인이 공변하고, 시간적 선후관계가 존재한 것 뿐만 아니라, 이러한 변화가 다른 변인으로는 설명될 수 없어야 한다. 즉, 다른 변인이 혼합되어선 안된다는 것이다