본문 바로가기
AI/Machine Learning

다중공선성 (VIF, 분산팽창계수)

by Mesut Özil 2023. 12. 18.

다중공선성 (VIF, 분산팽창계수)

VIFVariance Inflation Factor의 약자로, 다중공선성 평가하는 통계적 지표 중 하나입니다.
다중공선성이란 두 가지 이상의 독립 변수 서로 강한 선형 관계 있는 경우 발생합니다.

이는 회귀 모델에서 예측 변수 간에 높은 상관 관계가 있어 회귀 계수의 정확성 훼손되고,

모델의 안정성이나 해석력 감소할 수 있음을 의미합니다.


VIF정 독립 변수의 분산 다른 독립 변수에 의해 얼마나 크게 영향을 받는지를 나타냅니다.

각 독립 변수에 대한 VIF는 다음과 같이 계산됩니다:

VIF다중공선성 확인하는데 사용되며, 1에 가까우면 다중공선성 낮다는 것을 의미하며,

VIF 값이 특정 기준 (예: 10)을 넘어서면 다중공선성이 높다고 판단할 수 있습니다.

 

다중공선성 높은 경우에는 회귀 모델의 계수 추정이 불안정해질 수 있고 모델의 예측 성능이 저하되며,

변수의 중요도를 정확하게 평가하기 어려워집니다.

다중공선성 낮은 경우 모델은 안정적이고 신뢰성이 높은 모델로 간주됩니다.

 

다중공선성이 높은 경우 회귀 모델에서 발생할 수 있는 문제

계수 추정의 불안정성

독립 변수들 간 상관 관계로 인해 계수 추정값이 부정확하거나 불안정해질 수 있습니다.

작은 변화에도 모델의 계수가 크게 변할 수 있습니다.

 

추정된 계수의 부호 변화

다중공선성으로 인해 독립 변수들 간의 관계가 혼란스러워지면,

추정된 계수의 부호가 예측하기 어려울 수 있습니다.

 

통계적 유의성 감소

다중공선성으로 인해 독립 변수들 간의 상관 관계가 높아지면,

통계적 유의성을 평가하는 p-value가 높아질 수 있습니다.

이는 모델'통계적으로 유의미하지 않다는 것'을 의미할 수 있습니다.

 

다중공선성을 해결하기 위한 몇 가지 방법

상관 관계가 높은 독립 변수 제거

모델에 포함된 독립 변수 중에서 상관 관계가 높은 변수를 제거하거나,

변수를 결합하여 새로운 변수생성할 수 있습니다.

 

정규화(Regularization)

릿지(Ridge)라쏘(Lasso)와 같은 정규화 기법을 사용

 

변수 선택 기법

다중공선성을 고려하여 변수 선택하는 기법을 사용

 

 

VIF를 통해 다중공선성을 확인하는 것은 모델의 신뢰성 높이고 안정성을 유지하기 위해 중요한 단계입니다.

다중공선성이 높은 독립 변수들을 식별하고 필요에 따라 제거하거나 조정함으로써 모델 품질을 향상시킬 수 있습니다.

 

 

 

본 게시글은 ChatGPT의 도움을 받아 작성하였습니다.

'AI > Machine Learning' 카테고리의 다른 글

분류 모델 / 회귀 모델  (0) 2024.01.17
Ensemble (앙상블)  (0) 2024.01.10
Metrics (모델의 성능 지표)  (2) 2023.11.19
라벨 인코딩, 원핫 인코딩  (0) 2023.11.10
K-fold 교차 검증  (2) 2023.10.29