본문 바로가기
AI (Artificial Intelligence)/ML (Machine Learning)

[AI/ML] 지니 지수 구하는 방법, 분류함수 불순도 척도 계산하기

by jangThang 2025. 3. 31.
반응형

 지니 지수의 개념과 정의에 대해서 알아보고, 이를 계산하여 분류함수의 불순도 척도를 구해봅니다.

 

 

 

1. 지니 지수 (Gini Index, 지니 계수)

 

 본래 지니 지수는 경제학에서 소득 불평등 정도를 나타내는 소득분배지표로 사용했었습니다. 지니 지수는 0과 1 사이의 값을 가지며, 1에 가까울수록 소득이 불평등합니다. 즉, 소득이 제각각 다르다는 뜻이죠.

 지니 지수는 기계학습의 분류 함수 불순도 측정에도 사용됩니다. 불순도(impurity)는 하나의 노드 안에 얼마나 여러 클래스가 섞여 있는지를 나타내는 지표입니다.

 지니 지수가 1에 가까울수록 불순도가 높고, 이질적이라고 볼 수 있죠.

 

반응형

 

2. 지니 지수 계산

예시: A B C A A A A

 

 위와 같은 클래스를 갖는 노드가 있다고 할 때, 지니 계수를 구하는 과정을 알아봅니다.

 

 

 해당 노드의 클래스는 A가 5, B가 1, C가 1입니다.

 

 

 각 클래스의 비율을 계산하면 A는 5/7, B는 1/7, C는 1/7입니다.

 

 

 이제 지니 지수를 구하는 공식에 대입만 하면 됩니다.

 아래에서 계산을 더 진행하면

 

 지니 계수는 22/49로, 약 0.45입니다.

 흔히 0.5 이상을 혼합 상태로 보는데, 생각보다 높진 않네요.

 

 

star가 되고나서 Tistory

반응형

댓글