반응형
지니 지수의 개념과 정의에 대해서 알아보고, 이를 계산하여 분류함수의 불순도 척도를 구해봅니다.
[ Contents ]
1. 지니 지수 (Gini Index, 지니 계수)

본래 지니 지수는 경제학에서 소득 불평등 정도를 나타내는 소득분배지표로 사용했었습니다. 지니 지수는 0과 1 사이의 값을 가지며, 1에 가까울수록 소득이 불평등합니다. 즉, 소득이 제각각 다르다는 뜻이죠.
지니 지수는 기계학습의 분류 함수 불순도 측정에도 사용됩니다. 불순도(impurity)는 하나의 노드 안에 얼마나 여러 클래스가 섞여 있는지를 나타내는 지표입니다.
지니 지수가 1에 가까울수록 불순도가 높고, 이질적이라고 볼 수 있죠.
반응형
2. 지니 지수 계산
예시: A B C A A A A
위와 같은 클래스를 갖는 노드가 있다고 할 때, 지니 계수를 구하는 과정을 알아봅니다.

해당 노드의 클래스는 A가 5, B가 1, C가 1입니다.

각 클래스의 비율을 계산하면 A는 5/7, B는 1/7, C는 1/7입니다.

이제 지니 지수를 구하는 공식에 대입만 하면 됩니다.
아래에서 계산을 더 진행하면

지니 계수는 22/49로, 약 0.45입니다.
흔히 0.5 이상을 혼합 상태로 보는데, 생각보다 높진 않네요.

반응형
'AI (Artificial Intelligence) > ML (Machine Learning)' 카테고리의 다른 글
[AI/ML] K-평균 클러스터링 알고리즘 개념 및 동작 방식 알아보기 [feat. 실루엣 계수] (0) | 2025.04.01 |
---|---|
[AI/ML] SVM, 서포트 벡터 머신 개념과 원리, 특징과 구성요소 알아보기 (0) | 2025.03.31 |
[AI/ML] 회귀 분석 검정, 결정계수(R-squared)의 개념과 구하는 법 알아보기 (0) | 2025.03.30 |
[AI/ML] 최소제곱법을 이용한 회귀계수 추정, 오차 제곱합(SSE) 개념과 정의 (0) | 2025.03.30 |
[AI/ML] 회귀 분석의 개념과 유형, 그리고 회귀 모형의 가정 [선형성, 독립성, 등분산성] (1) | 2025.03.30 |
댓글