강화학습 (Reinforcement Learning) 용어 정리

조지아농부 2023. 10. 1. 23:46

2023. 10. 1. 23:46

강화학습은 기계학습의 한 영역이다.
지도학습과 비지도학습과는 다르다.
어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법
(참고) 교육심리학에서 비슷한 이론이 있다. 행동주의 심리학 중에 보상을 제공해서 행동에 대한 반응을 강력하게 하는 방법론이다. 다시 말해 잘하면 상을 주는 방법이다.

agent : 의사결정의 주체, 함수를 통해 다음 행동을 결정함 . 두뇌
envirinment : 에이전트가 학습하는 무대. 환경은 agent의 state와 reward를 결정함. agent에게 공개되어 있지 않은 경우가 많음
observation: agent가 환경으로부터 받는 정보
action(a) : 가능한 행동을 선택함
reward : agent 가 특정 action을 했을 때 받는 신호. 즉각적 보상이 안이루어지는 경우도 있음
policy: agent의 행동패턴. 환경을 행동에 연결짓는 함. a = π(s)
optimal policy: 강화학습의 목적은 optimal policy를 찾는 것
return(G): 보상. agent가 time에 따라 받게될 할인된 보상의 누적
ε - greedy :
Q - learning : 모델 없이 강화하는 학습 방법 중 하나. 주어진 상태(s)에서 주어진 행동(a)를 수행하는 것이 가져다 줄 효용의 기대값을 예측하는 함수인 Q함수를 학습함으로써 최적의 정책을 학습함

농업과 인공지능