지도학습을 통한 분류 모델에 많이 사용되는 SVM의 개념과 특징, 구성요소를 알아봅니다.
[ Contents ]
1. SVM (Support Vector Machine, 서포트 벡터 머신)
지도학습을 통한 분류 알고리즘으로, 마진이 가장 큰 데이터를 분리하는 초평면(Hyperplane)을 찾아 분류하는 방식
분류학습의 핵심은 결정경계(decision boundary)를 구하는 것에 있습니다. 그 경계를 통해서 데이터가 어느 클래스에 분류되는지 결정합니다.
SVM은 그 결정경계를 '마진이 가장 큰 초평면(Hyperplane)'으로 정합니다. 두 클래스 사이의 경계를 최대한 넓게 잡아 분류하므로, 정확성이 뛰어나며 최대 적합(overfitting)의 가능성도 낮습니다.
따라서 사물인식, 패턴인식, 손 글씨 숫자 인식 등 다양한 분야에서 활용됩니다.
2. SVM의 구성요소
1) 결정경계 (Decision Boundary)
데이터 분류의 기준이 되는 경계
데이터의 클래스를 나누는 경계로, 모든 분류학습은 최적의 결정경계를 구하는 과정입니다.
SVM에서는 그 결정경계를 '마진이 제일 큰 초평면'으로 정합니다.
2) 초평면 (Hyperplane)
n차원 공간에서 두 영역으로 나누는 평면(n-1차원)
데이터 속성이 늘어날수록 차원은 커집니다. x축, y축, z축... 등 각 속성의 축이 늘어날 때마다 차원이 커지죠.
이때 두 영역으로 나누는 건 n-1차원입니다. 2차원 평면에서는 1차원 직선이 두 영역으로 나누고, 3차원 입체에서는 2차원 평면이 두 영역으로 나누죠. 그 다음부터는 이론의 영역입니다.
이렇듯 n차원 공간에서 두 영역으로 나누는 평면을 초평면이라고 합니다.
3) 마진 (Margin)
결정경계에서 가장 가까운 데이터까지의 거리
결정경계인 초평면에서 가장 가까운 데이터까지의 거리를 '마진(margin)'이라고 합니다.
일종의 여유 공간으로, 마진이 널널할수록 오분류가 적습니다. 그래서 SVM은 마진이 최대가 되는 초평면을 찾습니다.
4) 서포트 벡터 (Support Vector)
결정 경계와 가장 근접한 데이터 집합
SVM에서 결정 경계를 결정하는 건 사실 '서포트 벡터'입니다. 수많은 데이터 중 극소수의 서포트 벡터들로부터 결정경계가 정해지므로, 학습과정도 비교적 간단한 편입니다. 서포트 벡터를 제외한 다른 데이터들은 결정경계를 정하는 데에 영향을 미치지 않습니다.
3. SVM 종류
1) 하드 마진 SVM
있는 그대로의 데이터를 토대로 최대 마진의 초평면을 찾는 SVM
수많은 데이터를 학습하다보면 일부 아쉬운 데이터가 보이게 됩니다.
다른 데이터는 저 멀리 있는데, 일부 데이터 때문에 결정경계가 동그라미 쪽으로 치우치게 되었죠.
그래서 하드 마진 SVM은 일부 이상치 데이터에 의해 결정경계가 왜곡될 수 있다는 단점이 있습니다.
2) 소프트 마진 SVM
마진 주변의 일부 데이터를 무시하는 SVM
좀 더 널널한 마진을 확보하기 위해서, 일부 마진 근처의 데이터는 무시하는 SVM 방식입니다. 어느 정도 오분류된 데이터를 허용하는 방식으로 좀 더 유연한 편이며, 오버피팅(overfitting) 방지에도 이점이 있습니다.
허용된 오차를 위한 변수를 '슬랙 변수(Slack Variable)'이라고 하며, 0과 1 사이의 값을 갖습니다. 자신이 속한 클래스의 마진 평면에서 떨어진 거리만큼 패널티를 부과하는 방식으로, 소프트 마진 SVM은 작동합니다.
'AI (Artificial Intelligence) > ML (Machine Learning)' 카테고리의 다른 글
[AI/통계] 베이즈 정리의 개념과 예제 [feat. 조건부 확률, 전 확률의 정리] (0) | 2025.04.02 |
---|---|
[AI/ML] K-평균 클러스터링 알고리즘 개념 및 동작 방식 알아보기 [feat. 실루엣 계수] (0) | 2025.04.01 |
[AI/ML] 지니 지수 구하는 방법, 분류함수 불순도 척도 계산하기 (0) | 2025.03.31 |
[AI/ML] 회귀 분석 검정, 결정계수(R-squared)의 개념과 구하는 법 알아보기 (0) | 2025.03.30 |
[AI/ML] 최소제곱법을 이용한 회귀계수 추정, 오차 제곱합(SSE) 개념과 정의 (0) | 2025.03.30 |
댓글