본문 바로가기
AI (Artificial Intelligence)/ML (Machine Learning)

[AI/ML] 머신러닝(Machine Learning)이란? 지도학습과 비지도학습

by jangThang 2022. 4. 9.
반응형

 

 머신러닝의 정의에 대해 설명하고, 머신러닝의 두 갈래인 '지도학습'과 '비지도학습'에 대해서 알아보겠습니다.

 

[ Contents ]

     

     

    1. 머신러닝(Machine Learning, 기계학습)이란?

    기계학습(Machine Learning): 컴퓨터가 인공지능을 얻기위해 학습하는 알고리즘(방법)

     

     AI는 '여러 개의 선택지를 빠르게 탐색하고 비교해서 최적의 안을 내놓는 컴퓨터'라고 볼 수 있으며, 기계학습은 '컴퓨터가 인공지능을 얻기 위해 학습하는 알고리즘'입니다. 즉, 방법론입니다.

     머신러닝의 종류에는 크게 3가지 '지도학습'과 '비지도 학습' 그리고 '강화 학습'이 있습니다. 강화 학습은 '컴퓨터가 주어진 환경에서 시행착오를 거치며 최적의 보상을 얻는 방법을 학습하는 방식'으로, 강화 학습 카테고리에서 좀 더 자세히 알아보실 수 있습니다.

     머신러닝 카테고리에서는 '지도학습'과 '비지도 학습'에 관한 내용을 자세히 다루겠습니다.

     

     

     

    2. 지도 학습과 비지도 학습

    1) 지도 학습

    지도 학습(Supervised Learning): 정답값(label)이 있는 데이터셋으로 학습하는 방식

     

     컴퓨터가 답을 구해본 뒤, 정답값이랑 비교하며 오차를 줄여나가는 학습방식입니다. '정해진 답'이 있기 때문에, 오차를 구하기 쉽고 성능을 측정하기도 용이합니다. 마치 시험지를 풀고, 정답지로 채점하고, 오답노트를 작성하는 우리의 학습방식과 비슷합니다.

     다만, 해설지는 없습니다. 문제 푸는 방법을 모르기 때문에, 컴퓨터에게 다양한 방식으로 시켜서 풀이 방법을 알아냅니다. 컴퓨터는 수많은 데이터를 정답 값과 짝지으면서, 문제풀이에 최적화된 함수를 만들어낼 수 있습니다.

     

     

    회귀(Regression): 실수 값을 예측하는 문제로, 답을 예측하는 함수를 찾아냅니다
    분류(Classification): 데이터가 속하는 그룹을 예측하는 문제로, 그룹을 나누는 함수를 찾아냅니다.

     

     지도 학습에서 '연속적인 실수값'을 예측하면 '회귀' 문제, '불연속적인 이산값'을 예측하면 '분류' 문제라고 합니다.

     예를 들어 주식 가격이나 부동산 시세를 예측하는 지도학습 모델은 '회귀' 문제이며, 사진 속 사물을 식별하거나 물건의 품목을 판별하는 지도학습 모델은 '분류' 문제입니다.

     데이터의 정답값에 따라 문제 분류를 나누긴 했지만, 깊게 들어가 보면 실수 값을 예측하는 회귀 함수(Regression Function)를 구하는 것과 속한 그룹을 예측하는 결정 경계(Decision Boundary)를 구하는 건 서로 일맥상통합니다. 단지, 성능 측정 방식과 모델 개선에 차이가 있을 뿐입니다.

     

     

     

    2) 비지도 학습

    비지도 학습(Unsupervised Learning): 정답 값(label)이 없는 데이터셋으로 학습하는 방식

     

     비지도 학습은 정답지가 없습니다. 따라서 결과값도 뚜렷한 정답이 없습니다. 비지도학습은 '데이터의 패턴'을 찾아내며, 컴퓨터가 찾은 데이터 패턴을 '사람'이 사용할지 말지를 결정합니다. 유의한 결과면 사용하고, 유의하지 않으면 파라미터를 조정해서 다시 학습시킵니다. 

     

     

    클러스터링(Clustering, 군집화): 비슷한 속성을 가진 데이터들의 그룹화

     

     비지도 학습에는 대표적으로 '클러스터링'이 있습니다. 클러스터링은 비슷한 속성을 가진 데이터들을 그룹 짓습니다. 클러스터링의 결과는 위 그림처럼 여러 가지가 나올 수 있으며, 분석자가 마음에 드는 결과를 선택합니다.

     

     

     분석 결과가 좋지 않을 때는, 학습이 덜 되었거나 잘못된 경우입니다. 이 때는 분석자가 적절하게 학습 파라미터(학습률, 학습 횟수, 클러스터링 개수 등)를 조정해야 합니다.

     

     

     

    3. 정리하기

     

     지금까지 컴퓨터가 문제 해결하는 방법을 학습하는 '머신러닝'에 대해서 알아봤습니다. 머신러닝은 데이터의 정답 값 유무에 따라 '지도 학습'과 '비지도 학습'으로 나뉘며, 지도 학습은 예측하는 결괏값이 실수냐 이산 값이냐에 따라 회귀와 분류 문제로 나뉘었습니다.

     정답 값이 없는 비지도 학습은 '데이터 패턴'을 파악하며, 대표적으로 데이터의 속성에 따라 그룹짓는 클러스터링이 있었습니다. 비지도학습은 정답 유무를 판별할 수 없기 때문에, 성능 측정이나 모델 개선이 지도 학습에 비해 어렵습니다. 지도 학습은 정답 값과의 오차로 학습하지만, 비지도 학습은 데이터 간의 거리나 유사도로 패턴을 학습하기 때문입니다.

     따라서 다음 글부터는 조금 쉬운 지도 학습을 먼저 알아보고, 이후 비지도 학습으로 넘어가겠습니다.

     

    star가 되고나서 Tistory

    반응형

    댓글