Paper Review/AI

연합 학습(Federated Learning) (3): Challenges

EddyLee 2024. 2. 12. 19:57

제목 : Federated Learning - Challenges, methods, and future directions

저자 : Tian Li, Anit Kumar Sahu, Ameet Talwalkar, and Virginia Smith

 

3] Statistical Heterogeneity

통계적 이질성을 한번 들여다보도록 하자.

아마,, data가 non-iid한 문제에 대해 열거를 할 것 같고, 이에 대한 해결책을 제시할 것 같다.

전에 찾아보니 non-iid한 data를 iid하게 만드는 방법은 아직까지 없는 것 같다.

하긴 있었으면 통계적 이질성이라는 문제도 없겠지.

 

Modeling heterogeneous data

기계 학습에는 메타 학습 및 멀티태스크 학습과 같은 방법을 통해 통계적 이질성을 모델링하는 방법에 대한 논문이 엄청 많다고 한다.

그렇다면 메타 학습(Meta Learning)과 멀티태스크 학습(Multitask Learning)이 뭘까?

 

메타 학습이란, 새로운 작업을 마주했을 때 적합한 모델을 빠르게 찾기 위해 작은 수의 샘플만을 이용하여 새로운 작업에 대해 효과적으로 일반화하는 능력을 강화하는 학습이라고 한다.
(쉽게 말해 적은 데이터만으로도 모델을 최대한 정확하게 만드는? 그런 학습인 것 같다.)
반면 멀티태스크 학습이란, 여러 관련된 작업들을 동시에 고려하여 모델을 학습하는 방식이다.
각 작업 사이의 유사성이 있을 때, 이러한 작업들을 동시에 학습하고 모델의 파라미터를 공유하는 것으로, 서로 다른 작업들 사이에서 지식을 공유함으로써 일반화 능력을 향상시키는 효과를 가져온다고 한다.
(쉽게 말해 관련도가 높은 데이터끼리 같이 처리를 하고 파라미터를 공유하는 학습이라고 말할 수 있을 것이다.)

 

연합 학습에선 MOCHA라는 프레임워크를 사용하고 있는데, 이 MOCHA는 멀티태스크 학습을 통해 공유된 파라미터를 활용하여 각 디바이스에 대해 개별적이지만 관련된 모델을 학습하여 개인화를 하는 것이라고 한다.

이 MOCHA 프레임워크는 이론적으로 수렴을 보장하지만, 대규모 네트워크에선 아직까지 한계가 있다고 한다.

MOCHA 말고 다른 접근 방식은, star topology(이전 포스팅 참고)를 베이지안 네트워크로 모델링하고 학습 중에 변형 추론을 수행하는 방식이 있다.

베이지안 네트워크가 뭐냐고..?

 

먼저 베이지안 통계를 봐야하는데,

 

 

6.6 베이즈 정리 — 데이터 사이언스 스쿨

.ipynb .pdf to have style consistency -->

datascienceschool.net

여기 블로그 되게 설명 잘 되있고.!

 

머신러닝 수업 ppt - Baye's Rule

 

정리하자면 "베이즈 정리를 쓰면 데이터가 주어지기 전의 사전확률값이 데이터가 주어지면서 어떻게 변하는지 계산할 수 있다. 따라서 데이터가 주어지기 전에 이미 어느 정도 확률값을 예측하고 있을 때 이를 새로 수집한 데이터와 합쳐서 최종 결과에 반영할 수 있다"

이러한 것이 베이즈 정리!

그렇다면 베이지안 네트워크는 어떤 네트워크일지 궁금해지는걸?

 

베이지안 네트워크는 그래프 구조로 표현되며, 노드(Node)와 엣지(Edge)로 이루어져 있습니다. 노드는 확률 변수를 나타내고, 엣지는 변수들 사이의 조건부 의존성을 나타냅니다. 이 그래프 구조를 통해 확률 변수들 간의 인과 관계를 시각화하고 모델링할 수 있습니다.

베이지안 네트워크는 조건부 확률 분포를 이용하여 노드들 간의 조건부 의존성을 모델링합니다. 즉, 각 노드의 상태가 주변 노드들에 의존하는 확률적인 모델을 만들어냅니다. 이러한 확률적 모델은 새로운 정보가 주어졌을 때, 다른 변수들의 확률 분포를 업데이트하고 예측하는데 사용될 수 있습니다.

 

 

이전 포스팅에서 봤던 것처럼, 이런 네트워크에서 각 노드들의 의존성을 조건부 확률 분포로 모델을 만들어내는 것이 베이지안 네트워크!

이 방법은 여전히 대규모 연합 네트워크에 일반화하기에는 비용이 많이 든다고 한다.

(당연하지. 노드가 많아질수록 계산이 많아질 것이니..)

연합 데이터를 모델링할 때는 정확성 이외에도 공정성 등의 문제를 고려하는 것도 중요한데, 이는 특정 디바이스 그룹에 파라미터가 편향될 수 있으므로, 이것도 유의해야 한다는 뜻이다.

이에 대한 가장 원초적인 접근 방식 -> 에그노스틱 연합 학습(agnostic federated learning)

최소-최대 최적화 방식을 통해 클라이언트 분포의 혼합으로 형성된 모든 목표 분포에 대해 중앙 집중식 모델을 최적화하는 방식.

Li 등이 제안한 또 다른 일반적인 접근 방식 -> 분포의 편차를 줄이기 위해 손실이 더 큰 디바이스에 더 높은 상대적 가중치를 부여하는 q-FFL

아무튼 이렇게 공정성을 해결하려고 노력하고 있다고 한다.