강화학습 (Reinforcement Learning)

강화학습을 이해하기 위해 몇가지 기본적인 용어 또는 개념을 이해해야 합니다.

  • ‘에이전트’는 주어진 ‘환경’에서 ‘행동’을 선택하고,

  • 그 ‘환경’에서 ‘상태’와 ‘보상’이 만들어집니다.


_images/reinforcement_learning.jpg

강화학습 환경.


에이전트의 목표는 주어진 환경에서 상태와 행동을 통해 얻어지는 보상이라는 정보를 잘 확인해서 보상을 최대화하는 것입니다.

에이전트는 주어진 환경과의 반복되는 상호작용 속에서, 보상을 최대화하기 위해 어떤 선택이 가장 좋은 선택일지 학습하게 됩니다. 에이전트가 이러한 과정으로 행동을 선택하는 것을 행동 정책 (action policy)이라고 합니다.

또한 에이전트가 주어진 환경의 특정 상태에서 행동을 선택하는 과정, 그리고 행동 정책을 구현하는 과정에서 가장 흔하게 Deep Q networkepsilon-greedy 정책 을 사용합니다.

다음 페이지에서는 Q-learning에 대해서 소개합니다.


이전글/다음글

다음글 :