회귀 분석 검정에서 사용하는 결정계수 R^2에 대해서 알아봅니다. 결정계수의 개념에 대해서 먼저 살펴보고, 이를 구해서 검정하는 방법도 알아보겠습니다.
[ Contents ]
1. 결정계수 R-squared

1 - (SSE 오차제곱합) / (SST 전체제곱합) = (SSR 회귀 제곱합) / (SST 전체제곱합)
결정계수는 회귀모형이 전체 데이터를 얼마나 잘 설명하고 있는지를 보여주는 지표로, 많이 사용하는 평가 지표입니다. 회귀모형이 종속변수(Y)의 변동을 얼마나 잘 설명하고 있는지를 나타내주죠.
결정계수는 0에서 1사이의 값을 가지며, 1에 가까울수록 회귀모형이 잘 설명하고 있다고 판단합니다.
아래에서는 결정계수 계산에 필요한 SSE, SST, SSR에 대해서 알아보겠습니다.
1) SSE (Error Sum of Squares, 오차 제곱합)

오차 제곱합 : (관측치 - 예측값)인 오차 제곱합
회귀 계수를 구하기 위한 최소제곱법에서 사용하는 오차 제곱합입니다.
오차 제곱합은 잔차들의 제곱합으로 구해집니다. SSE가 작을수록 좋은 회귀 모델입니다.
[AI/ML] 최소제곱법을 이용한 회귀계수 추정, 오차 제곱합(SSE) 개념과 정의
회귀계수를 추정하는 방법은 다양하지만, 대표적으로는 최소제곱법을 사용합니다. 최소제곱법을 이용하여 회귀계수를 추정하는 방법을 알아봅니다. [ Contents ] 1. 최소제곱법 (OLS)각 오차의
star7sss.tistory.com
2) SST (Total Sum of Squares, 전체 제곱합)

전체 제곱합 : (관측치 - 평균값)의 제곱합
관측치에서 평균값을 뺀 값을 제곱한 합입니다. 분산을 구하는 식과 동일하며, 종속변수 Y의 전체 변동량을 의미합니다.
즉, Y값이 평균으로부터 얼마나 퍼져있는지를 나타냅니다.
3) SSR (Regression Sum of Squares, 회귀 제곱합)

회귀 제곱합 : (예측값 - 평균값)의 제곱합
예측값에서 평균값을 뺀 값을 제곱한 합입니다. 회귀모형의 예측값이 평균으로부터 얼마나 떨어져 있는지를 나타내며, 이는 회귀모형이 설명한 변동량이기도 합니다.
SSR이 크면 일반적으로 회귀모델이 데이터를 잘 설명하고 있다고 여깁니다. 단순히 데이터의 평균으로 회귀한 것이 아니라, 실제 데이터의 변화에 따라 예측값이 변동했다는 뜻이기 때문입니다.
2. SST, SSR, SSE의 관계
SST(전체 제곱합) = SSR(회귀 제곱합) + SSE(오차 제곱합)
분산, 즉 변동량 관점에서 보면 셋의 관계는 아래와 같습니다.
종속변수의 전체 변동량(SST) = 회귀모델이 설명한 부분(SSR) + 설명하지 못한 부분(SSE)

'AI (Artificial Intelligence) > ML (Machine Learning)' 카테고리의 다른 글
[AI/ML] SVM, 서포트 벡터 머신 개념과 원리, 특징과 구성요소 알아보기 (0) | 2025.03.31 |
---|---|
[AI/ML] 지니 지수 구하는 방법, 분류함수 불순도 척도 계산하기 (0) | 2025.03.31 |
[AI/ML] 최소제곱법을 이용한 회귀계수 추정, 오차 제곱합(SSE) 개념과 정의 (0) | 2025.03.30 |
[AI/ML] 회귀 분석의 개념과 유형, 그리고 회귀 모형의 가정 [선형성, 독립성, 등분산성] (1) | 2025.03.30 |
[AI/ML] 머신러닝(Machine Learning)이란? 지도학습과 비지도학습 (0) | 2022.04.09 |
댓글