본문 바로가기

Statistics/Knowledge3

결정계수 (R-squared) 결정계수 (Coefficient of Determination, R-squared) 회귀분석에서 종속 변수의 변동량을 설명하는 지표로 사용 0에서 1 사이의 값을 가지며, 1에 가까울수록 회귀 모형이 종속 변수의 변동량을 잘 설명한다는 것을 의미 결정계수는 종속 변수와 독립 변수 간의 선형 관계의 강도를 측정하는 데 사용 이러한 통계적 개념을 통해 데이터에 숨겨진 패턴을 발견하고 추론할 수 있습니다. 결정계수를 구하는 이유 모델의 적합도 평가 결정계수는 회귀 모델이 주어진 데이터를 얼마나 잘 설명하는지를 나타내므로, 모델의 적합도를 평가하는 데 사용 변수의 중요도 비교 여러 변수가 있는 경우, 각 변수의 중요도를 비교할 수 있습니다. 결정계수가 높은 변수는 종속 변수를 예측하는 데 더 많은 설명력을 가지.. 2024. 2. 8.
상관계수 (Correlation Coefficient) 상관계수 (Correlation Coefficient) 상관계수(correlation coefficient)는 두 변수 간의 선형적 관계의 강도와 방향을 나타내는 통계적 측도입니다. 상관계수는 두 변수 간의 관계를 이해하고, 모델을 개선하는 데 중요한 도구로, 범위는 일반적으로 -1 < r < 1 이며, 다음과 같은 성질이 있습니다. 1에 가까울수록 두 변수는 양의 선형 관계를 갖습니다. -1에 가까울수록 두 변수는 음의 선형 관계를 갖습니다. 0에 가까울수록 두 변수는 선형적으로 상관 관계가 없습니다. 공식 1. 데이터 탐색 두 변수 간의 관계를 시각화하고 이해하는 데 도움이 됩니다. 상관계수는 두 변수 간의 선형적 관계의 강도를 제공하므로 데이터 탐색 및 시각화에 유용합니다. 2. 회귀 분석 회귀 분.. 2024. 2. 7.
공분산 (Covariance) 공분산 (Covariance) 두 변수 간의 관계를 나타내는 통계적 측도로, 두 변수가 함께 어떻게 변하는지를 보여줍니다. 공분산은 양수, 음수, 0일 수 있습니다. 공분산 = 양수: 두 변수가 함께 증가or감소하는 경향 공분산 = 음수: 한 변수가 증가할 때 다른 변수는 감소하는 경향 공분산 = 0: 두 변수가 선형 관계가 없음을 의미 공분산의 크기가 클수록 두 변수 간의 관계가 강하다고 해석 가능 공식 이 공식은 각 데이터 포인트에서 각 변수의 평균을 빼고, 그 결과를 곱한 후 모두 합하여 데이터 포인트 수로 나눈 것 여기서 n−1로 나누는 것은 표본이 모집단을 대표하기 위한 것이며, 편향 보정을 위해 사용 또한, 두 변수 X와 Y가 동일한 데이터셋에서 완전히 독립적이라면 공분산은 0 하지만 공분산이.. 2024. 2. 6.