머신러닝 기법 중 하나인, 강화학습에 대해 소개합니다. 강화학습에서 에이전트와 정책, 환경이 무엇을 뜻하는지, 그리고 어떻게 학습하는지를 알아봅니다.
[ Contents ]
1. 강화학습이란?
강화학습(Reinforce Learning): 주어진 환경에서 시행착오를 거쳐 최적의 보상을 획득하는 방법(Policy)을 학습
강화학습은 우리가 '운동'을 배우는 것과 비슷합니다. 농구공을 잘 넣기 위해서는, 수많은 시행착오를 거쳐 직접 노하우를 익혀야 합니다. 꾸준한 노력만이 실력을 키울 수 있죠.
강화학습도 이와 마찬가지로, 주어진 환경에서 수많은 시행착오를 거쳐 방법을 터득합니다. 다만, 우월한 컴퓨팅 능력을 통해 굉장히 빠르게 많은 시행착오를 거칩니다. 수도 없이 많은 시뮬레이션을 통해, 컴퓨터는 최적의 방법을 찾아냅니다.
2. 에이전트와 정책, 그리고 환경
에이전트(Agent): 주어진 환경에서 행동(Action)을 하는 주체 (주로 컴퓨터)
정책(Policy): 보상을 얻을 수 있는 방법
환경(Environments): 에이전트가 행동(Action)을 통해 상호작용하는 공간
강화학습을 하는 주체를 '에이전트', 에이전트가 강화학습을 하는 공간을 '환경', 그리고 환경에서 행동을 통해 보상을 얻는 방법을 '정책'이라고 합니다. 농구를 예시로 하면, 농구 선수가 '에이전트'이고 농구 코트는 '환경', 농구공을 넣는 방법은 '정책'입니다.
Agent(행위자)는 Action(행동)을 통해 Environments(환경)과 꾸준히 상호작용하며, Action에 따라 달라지는 Reward(보상)으로부터 피드백을 받습니다. 어떠한 행동을 했을 때 주어지는 보상이 적으면 지양하고, 보상이 많으면 지향합니다.
3. 정리하기
강화학습은 주어진 환경에서 에이전트가 수많은 시행착오를 거쳐 최적의 보상을 획득하는 방법(Policy)을 학습하는 방식입니다. 에이전트는 환경에서의 행동에 따른 보상을 통해, 환경에 대한 이해도를 높이고 최대 보상을 얻을 수 있는 방법을 개선해갑니다.
이때, 가장 중요한 정보는 '환경에 대한 정보'입니다. 어떤 행동을 했을 때 어떤 보상을 받는지를 안다면, 쉽게 최대 보상을 얻을 수 있는 방법을 찾을 수 있습니다. 따라서 앞으로 다양한 강화학습 알고리즘을 배우며, 어떤 방식으로 환경을 이해하고 정책을 개선하는지를 알아보겠습니다.
댓글