K-평균 클러스터링은 비지도학습의 대표적인 예시로, 간단하면서도 준수한 성능을 가졌습니다. 이러한 K-평균 클러스터링의 개념 및 동작 방식을 알아봅니다.
[ Contents ]
1. K-평균 클러스터링

중심점을 갱신하며 K개의 군집으로 분류하는 비지도 학습
K-평균 클러스터링은 K개의 중심점을 갖는 분류 알고리즘입니다.
임의의 중심점 K개를 지정하고, 중심점을 기준으로 가까운 데이터들을 해당 클래스로 할당합니다. 그리고 새롭게 형성된 군집에서 새로운 중심점을 갱신하고, 갱신된 중심점을 기준으로 또 다시 가까운 데이터들을 할당하는 과정을 반복합니다. 그렇게 몇 번 반복하면 중심점의 변화가 거의 없는 군집이 만들어지죠.
앞선 설명은 다소 이해가 어려울 수 있습니다. 아래에서 차근차근 살펴보겠습니다.
2. K-평균 클러스터링 작동 원리
0) K 선정하기
분류할 군집의 개수 K를 선정함
K는 하이퍼 파라미터로, 사람이 직접 선정합니다. 선정한 K로 클러스터링을 진행하고, 적당한 결과가 나올 때까지 아래 과정을 반복하며 K를 조정합니다.
아래 예시에서는 K = 3 으로 진행합니다.
1) 초기 중심점(Centroid) 설정

초기 군집을 중심으로 k개의 중심점을 임의 지정
초기 군집에서 k개의 중심점을 임의 지정합니다. 여기서 임의 지정은 '랜덤'입니다.
물론 개선된 K-평균 클러스터링 알고리즘 중에서는 최대한 퍼트려서 선정하는 방식도 있긴 합니다. 다만 그걸 계산하는 과정이 필요하므로, 차라리 랜덤으로 지정하고 K-평균 클러스터링을 몇 번 더 반복하는 게 더 나을 수도 있습니다.
2) 할당(Assignment)

K개의 중심점을 기준으로, 가장 가까운 군집에 할당
각 중심점을 기준으로 가까운 중심점으로 군집을 분류합니다.
새로운 군집이 형성되었지만, 기존 중심점은 더 이상 군집의 중심이 아닙니다.
3) 중심점 재계산

새롭게 형성된 각 군집의 중심점을 갱신
중심점을 새로 계산하여 산정합니다.
4) 반복
군집의 변화가 없을 때까지 2~3단계 반복
변경된 중심점에 따라 다시 군집을 분류하고, 새로운 군집의 중심점을 재산정하는 과정을 반복합니다.
위 예시는 간단해서 1회만에 군집이 분류되었지만.. 대부분의 데이터에서는 여러 번 반복해서 구합니다. 데이터 시각화를 통해서 군집화된 데이터를 검토하기도 하며, 시각화가 어려운 데이터의 경우에는 실루엣 계수 등을 통해 군집화 정도를 판별합니다.

실루엣 계수는 -1부터 1 사이의 값을 가지며, 1에 가까울수록 좋은 클러스터링입니다.
'AI (Artificial Intelligence) > ML (Machine Learning)' 카테고리의 다른 글
[AI/통계] 베이즈 정리의 개념과 예제 [feat. 조건부 확률, 전 확률의 정리] (0) | 2025.04.02 |
---|---|
[AI/ML] SVM, 서포트 벡터 머신 개념과 원리, 특징과 구성요소 알아보기 (0) | 2025.03.31 |
[AI/ML] 지니 지수 구하는 방법, 분류함수 불순도 척도 계산하기 (0) | 2025.03.31 |
[AI/ML] 회귀 분석 검정, 결정계수(R-squared)의 개념과 구하는 법 알아보기 (0) | 2025.03.30 |
[AI/ML] 최소제곱법을 이용한 회귀계수 추정, 오차 제곱합(SSE) 개념과 정의 (0) | 2025.03.30 |
댓글