[AI/ML] K-평균 클러스터링 알고리즘 개념 및 동작 방식 알아보기 [feat. 실루엣 계수]

K-평균 클러스터링은 비지도학습의 대표적인 예시로, 간단하면서도 준수한 성능을 가졌습니다. 이러한 K-평균 클러스터링의 개념 및 동작 방식을 알아봅니다.

[ Contents ]

1. K-평균 클러스터링
2. K-평균 클러스터링 작동 원리

1. K-평균 클러스터링

중심점을 갱신하며 K개의 군집으로 분류하는 비지도 학습

K-평균 클러스터링은 K개의 중심점을 갖는 분류 알고리즘입니다.

임의의 중심점 K개를 지정하고, 중심점을 기준으로 가까운 데이터들을 해당 클래스로 할당합니다. 그리고 새롭게 형성된 군집에서 새로운 중심점을 갱신하고, 갱신된 중심점을 기준으로 또 다시 가까운 데이터들을 할당하는 과정을 반복합니다. 그렇게 몇 번 반복하면 중심점의 변화가 거의 없는 군집이 만들어지죠.

앞선 설명은 다소 이해가 어려울 수 있습니다. 아래에서 차근차근 살펴보겠습니다.

2. K-평균 클러스터링 작동 원리

0) K 선정하기

분류할 군집의 개수 K를 선정함

K는 하이퍼 파라미터로, 사람이 직접 선정합니다. 선정한 K로 클러스터링을 진행하고, 적당한 결과가 나올 때까지 아래 과정을 반복하며 K를 조정합니다.

아래 예시에서는 K = 3 으로 진행합니다.

1) 초기 중심점(Centroid) 설정

초기 군집을 중심으로 k개의 중심점을 임의 지정

초기 군집에서 k개의 중심점을 임의 지정합니다. 여기서 임의 지정은 '랜덤'입니다.

물론 개선된 K-평균 클러스터링 알고리즘 중에서는 최대한 퍼트려서 선정하는 방식도 있긴 합니다. 다만 그걸 계산하는 과정이 필요하므로, 차라리 랜덤으로 지정하고 K-평균 클러스터링을 몇 번 더 반복하는 게 더 나을 수도 있습니다.

2) 할당(Assignment)

K개의 중심점을 기준으로, 가장 가까운 군집에 할당

각 중심점을 기준으로 가까운 중심점으로 군집을 분류합니다.

새로운 군집이 형성되었지만, 기존 중심점은 더 이상 군집의 중심이 아닙니다.

3) 중심점 재계산

새롭게 형성된 각 군집의 중심점을 갱신

중심점을 새로 계산하여 산정합니다.

4) 반복

군집의 변화가 없을 때까지 2~3단계 반복

변경된 중심점에 따라 다시 군집을 분류하고, 새로운 군집의 중심점을 재산정하는 과정을 반복합니다.

위 예시는 간단해서 1회만에 군집이 분류되었지만.. 대부분의 데이터에서는 여러 번 반복해서 구합니다. 데이터 시각화를 통해서 군집화된 데이터를 검토하기도 하며, 시각화가 어려운 데이터의 경우에는 실루엣 계수 등을 통해 군집화 정도를 판별합니다.

실루엣 계수는 -1부터 1 사이의 값을 가지며, 1에 가까울수록 좋은 클러스터링입니다.

저작자표시 비영리 변경금지

'AI (Artificial Intelligence) > ML (Machine Learning)' 카테고리의 다른 글

[AI/통계] 베이즈 정리의 개념과 예제 [feat. 조건부 확률, 전 확률의 정리] (0)	2025.04.02
[AI/ML] SVM, 서포트 벡터 머신 개념과 원리, 특징과 구성요소 알아보기 (0)	2025.03.31
[AI/ML] 지니 지수 구하는 방법, 분류함수 불순도 척도 계산하기 (0)	2025.03.31
[AI/ML] 회귀 분석 검정, 결정계수(R-squared)의 개념과 구하는 법 알아보기 (0)	2025.03.30
[AI/ML] 최소제곱법을 이용한 회귀계수 추정, 오차 제곱합(SSE) 개념과 정의 (0)	2025.03.30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

[AI/ML] K-평균 클러스터링 알고리즘 개념 및 동작 방식 알아보기 [feat. 실루엣 계수]

1. K-평균 클러스터링