본문 바로가기
AI (Artificial Intelligence)/ML (Machine Learning)

[AI/ML] K-평균 클러스터링 알고리즘 개념 및 동작 방식 알아보기 [feat. 실루엣 계수]

by jangThang 2025. 4. 1.
반응형

 K-평균 클러스터링은 비지도학습의 대표적인 예시로, 간단하면서도 준수한 성능을 가졌습니다. 이러한 K-평균 클러스터링의 개념 및 동작 방식을 알아봅니다.

 

 

 

1. K-평균 클러스터링

중심점을 갱신하며 K개의 군집으로 분류하는 비지도 학습

 

 K-평균 클러스터링은 K개의 중심점을 갖는 분류 알고리즘입니다.

 임의의 중심점 K개를 지정하고, 중심점을 기준으로 가까운 데이터들을 해당 클래스로 할당합니다. 그리고 새롭게 형성된 군집에서 새로운 중심점을 갱신하고, 갱신된 중심점을 기준으로 또 다시 가까운 데이터들을 할당하는 과정을 반복합니다. 그렇게 몇 번 반복하면 중심점의 변화가 거의 없는 군집이 만들어지죠.

 앞선 설명은 다소 이해가 어려울 수 있습니다. 아래에서 차근차근 살펴보겠습니다.


 

 

2. K-평균 클러스터링 작동 원리

0) K 선정하기

분류할 군집의 개수 K를 선정함

 

 K는 하이퍼 파라미터로, 사람이 직접 선정합니다. 선정한 K로 클러스터링을 진행하고, 적당한 결과가 나올 때까지 아래 과정을 반복하며 K를 조정합니다.

 아래 예시에서는 K = 3 으로 진행합니다.

 

 

1) 초기 중심점(Centroid) 설정

초기 군집을 중심으로 k개의 중심점을 임의 지정

 

 초기 군집에서 k개의 중심점을 임의 지정합니다. 여기서 임의 지정은 '랜덤'입니다.

 물론 개선된 K-평균 클러스터링 알고리즘 중에서는 최대한 퍼트려서 선정하는 방식도 있긴 합니다. 다만 그걸 계산하는 과정이 필요하므로, 차라리 랜덤으로 지정하고 K-평균 클러스터링을 몇 번 더 반복하는 게 더 나을 수도 있습니다.

 

 

2) 할당(Assignment)

K개의 중심점을 기준으로, 가장 가까운 군집에 할당

 

 각 중심점을 기준으로 가까운 중심점으로 군집을 분류합니다.

 새로운 군집이 형성되었지만, 기존 중심점은 더 이상 군집의 중심이 아닙니다.

 

반응형

 

 

3) 중심점 재계산

새롭게 형성된 각 군집의 중심점을 갱신

 

 중심점을 새로 계산하여 산정합니다.

 

 

4) 반복

군집의 변화가 없을 때까지 2~3단계 반복 

 

 변경된 중심점에 따라 다시 군집을 분류하고, 새로운 군집의 중심점을 재산정하는 과정을 반복합니다.

 위 예시는 간단해서 1회만에 군집이 분류되었지만.. 대부분의 데이터에서는 여러 번 반복해서 구합니다. 데이터 시각화를 통해서 군집화된 데이터를 검토하기도 하며, 시각화가 어려운 데이터의 경우에는 실루엣 계수 등을 통해 군집화 정도를 판별합니다.

 

 실루엣 계수는 -1부터 1 사이의 값을 가지며, 1에 가까울수록 좋은 클러스터링입니다.

 

 

star가 되고나서 Tistory

반응형

댓글