상관계수 (Correlation Coefficient)
상관계수(correlation coefficient)는 두 변수 간의 선형적 관계의 강도와 방향을 나타내는 통계적 측도입니다.
상관계수는 두 변수 간의 관계를 이해하고, 모델을 개선하는 데 중요한 도구로,
범위는 일반적으로 -1 < r < 1 이며, 다음과 같은 성질이 있습니다.
- 1에 가까울수록 두 변수는 양의 선형 관계를 갖습니다.
- -1에 가까울수록 두 변수는 음의 선형 관계를 갖습니다.
- 0에 가까울수록 두 변수는 선형적으로 상관 관계가 없습니다.


공식


1. 데이터 탐색
두 변수 간의 관계를 시각화하고 이해하는 데 도움이 됩니다.
상관계수는 두 변수 간의 선형적 관계의 강도를 제공하므로 데이터 탐색 및 시각화에 유용합니다.
2. 회귀 분석
회귀 분석에서 독립 변수와 종속 변수 간의 관계를 파악하는 데 상관계수를 사용할 수 있습니다.
이를 통해 변수 간의 선형적 관계를 평가하고 모델을 구성할 수 있습니다.
3. 데이터 전처리
상관계수는 데이터 전처리 단계에서 변수 간의 상관 관계를 이해하는 데 도움이 됩니다.
예를 들어, 다중공선성을 확인하여 회귀 분석에 적절한 변수를 선택할 수 있습니다.
본 게시글은 ChatGPT의 도움을 받아 작성하였습니다.
'Statistics > Knowledge' 카테고리의 다른 글
결정계수 (R-squared) (2) | 2024.02.08 |
---|---|
공분산 (Covariance) (0) | 2024.02.06 |