기계학습에서 가장 기본적이고도 중요한 분야인 '회귀 분석(Regression Analysis)'에 대해서 알아봅니다. 또 회귀분석의 유형과 그 분석의 토대가 되는 회귀 모형의 가정도 살펴보겠습니다.
[ Contents ]
1. 회귀 분석(Regression Analysis)
연속성 있는 실수 값을 예측하는 문제로, 답을 예측하는 함수를 찾아냅니다.
회귀분석은 지도학습 중 하나로, 정답값(label)이 있는 데이터로 답을 예측하는 함수를 찾아냅니다.
일련의 데이터 추세를 파악해서 특정 값을 예측하는 분석 모형입니다.
[AI/ML] 머신러닝(Machine Learning)이란? 지도학습과 비지도학습
머신러닝의 정의에 대해 설명하고, 머신러닝의 두 갈래인 '지도학습'과 '비지도학습'에 대해서 알아보겠습니다. [ Contents ] 1. 머신러닝(Machine Learning, 기계학습)이란? 기계학습(Machine Learning): 컴퓨
star7sss.tistory.com
회귀 모델의 예시로는 '주가', '부동산 시세', '매출액' 등으로, 주로 수치 예측에 사용됩니다.
2. 회귀 분석 변수
- 독립변수(Independent Variable): 예측 값의 영향을 주는 변수
- 종속변수(Dependent Variable): 예측하려는 값으로, 독립 변수에 따라 변화됨
독립변수는 '설명변수', '예측변수' 라고도 하며, 회귀 모델에서 목표값을 예측하기 위해 쓰이는 변수입니다.
종속변수는 예측하려는 목표값으로, '반응변수'나 '결과변수'라고도 합니다.
- 예측하려는 목표값 : 종속변수
- 예측값에 영향을 미치는 요인 : 독립변수
통계쪽 개념을 그대로 가져오다보니 명칭이 조금 어려운데, 개념은 간단한 편입니다.
예를 들어, 주가 예측 회귀모델에서 종속변수는 '주가(주식 가격)'입니다. 반면 독립변수에는 '금리', '환율', '기업 매출액' 등이 있겠죠.
3. 회귀모형의 가정
회귀분석은 통계 & 선형대수학에서 시작했습니다. 그러다보니 이론적 가정이 필요한데, 이에 대해서 알아봅니다.
1) 선형성 (Linearity)
독립변수(X)와 종속변수(Y) 간의 관계가 선형적이어야 함
딥러닝이 활성화 함수를 통해 비선형적으로 학습을 진행했다면, 머신러닝은 선형적으로 학습을 진행합니다.
마치 다항 일차방정식을 푸는 과정과 비슷합니다. Y는 예측하려는 종속변수이고, X는 예측하는 데에 필요한 독립변수들입니다. 회귀분석은 각 독립변수들이 예측값에 얼마나 영향을 미치는지 산정한 β 값을 알아내는 데에 있습니다.
예를 들어 주가를 예측하는 선형함수는 이렇게 짜볼 수 있겠죠.
Y(삼성전자 주가) = β0 + β1 * (당기 매출액) + β2 * (금리) + β3 * (환율) + ϵ(오차)
2) 독립성 (Independence)
오차항과 독립변수는 서로 독립적이어야 함
위 수식에서 ϵ를 오차항, 잔차라고 합니다. 어느 독립변수가 커질수록 오차도 커진다면, 그건 잘못된 거겠죠.
그럴 때에는 계수 추정치를 수정하거나, 독립변수를 조정해야 합니다.
3) 등분산성 (Homoscedasticity)
모든 독립변수 값에 대해 오차들의 분산이 일정해야 함
독립변수의 값이 크든 작든, 예측값의 크기에 관계없이 오차의 분산이 동일해야 함을 의미합니다.
특정 독립변수가 커질수록 오차값이 커진다면 문제가 되겠죠. 예를 들어 '소비액'을 예측하는 회귀모형을 만든다고 합시다. 그러면 독립변수로 '소득'이 들어갈 수 있겠고, 이는 '소비액'을 예측하는 데에 중요한 변수가 되겠죠.
하지만 소득이 올라갈수록 소비가 늘어나는 데에는 한계가 있습니다. 시급 1만원일 때 점심값으로 6천원 쓴다고 해서, 시급이 10만원으로 오르면 점심값으로 6만원을 쓰진 않죠. 이러한 오차를 없애기 위해 등분산성을 유지해야 합니다.
4) 정규성 (Normality)
잔차항 ϵ이 정규 분포를 이뤄야 함
잔차(오차)는 평균이 0인 정규분포를 따라야 합니다.
정규분포는 마치 고등학교 1~9등급처럼 양극단은 수가 적고, 가운데쪽은 수가 많은 분포 형태를 말합니다. 대부분의 통계 이론은 정규분포를 기준으로 세워졌으며, 회귀모델의 가설 검증에 쓰이는 t-test나 F-test 등도 정규분포를 가정합니다.
따라서 잔차의 정규성이 보장되어야, 회귀분석의 가설검정 및 신뢰구간 계산을 할 수 있습니다.
5) 비상관성 (Uncorrelatedness)
잔차들끼리 상관 관계가 없어야 함
한 관측치(데이터)에서 발생한 오차가 다른 관측치(데이터)의 오차에 영향을 주지 않아야 합니다.
통계적으로는 서로 다른 잔차(오차항) 간 공분산이 0이어야 한다고 합니다.
회귀모델에서 상관성은 종속변수와 독립변수들만 있어야 하는데, 오차들이 서로 상관성이 있다면 문제가 있다는 뜻이겠죠. 따라서 이는 누락된 중요한 독립변수가 있거나, 모델이 잘못 설정되어 있다는 증거로 볼 수 있습니다.
선형성 | 독립변수(X)와 종속변수(Y) 간의 관계가 선형적이어야 함 |
독립성 | 오차항과 독립변수는 서로 독립적이어야 함 |
등분산성 | 모든 독립변수 값에 대해 오차들의 분산이 일정해야 함 |
정규성 | 잔차항 ϵ이 정규 분포를 이뤄야 함 |
비상관성 | 잔차들끼리 상관 관계가 없어야 함 |
이상, 회귀 분석의 개념과 회귀모형의 가정에 대해서 알아봤습니다.
머신러닝의 토대가 선형대수와 통계에 있다보니, 이를 빼고 다루기는 어려울 거 같아요.
'AI (Artificial Intelligence) > ML (Machine Learning)' 카테고리의 다른 글
[AI/ML] SVM, 서포트 벡터 머신 개념과 원리, 특징과 구성요소 알아보기 (0) | 2025.03.31 |
---|---|
[AI/ML] 지니 지수 구하는 방법, 분류함수 불순도 척도 계산하기 (0) | 2025.03.31 |
[AI/ML] 회귀 분석 검정, 결정계수(R-squared)의 개념과 구하는 법 알아보기 (0) | 2025.03.30 |
[AI/ML] 최소제곱법을 이용한 회귀계수 추정, 오차 제곱합(SSE) 개념과 정의 (0) | 2025.03.30 |
[AI/ML] 머신러닝(Machine Learning)이란? 지도학습과 비지도학습 (0) | 2022.04.09 |
댓글