소개

  • 2019년 구글 딥마인드 팀에서 알파스타를 발표했다.
  • 바둑에서의 알파고처럼 스타크래프트2를 하는 인공지능이다.
  • 여기서 사용된 인공지능 알고리즘이 강화학습이다.

https://www.deepmind.com/blog/alphastar-grandmaster-level-in-starcraft-ii-using-multi-agent-reinforcement-learning

 

 

 

 

  • 인공지능이 하는 스타2
  • 일점사를 배웠다

 

 

강화학습이란?

출처: synopsys

  • 강화학습은 기계학습의 한 영역이다.
  • 지도학습과 비지도학습과는 다르다.
  • 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법
  • (참고) 교육심리학에서 비슷한 이론이 있다. 행동주의 심리학 중에 보상을 제공해서 행동에 대한 반응을 강력하게 하는 방법론이다. 다시 말해 잘하면 상을 주는 방법이다.

 

용어 설명

출처: synopsys

  • agent : 의사결정의 주체, 함수를 통해 다음 행동을 결정함 . 두뇌
  • envirinment : 에이전트가 학습하는 무대. 환경은 agent의 state와 reward를 결정함. agent에게 공개되어 있지 않은 경우가 많음
  • observation: agent가 환경으로부터 받는 정보
  • action(a) : 가능한 행동을 선택함
  • reward : agent 가 특정 action을 했을 때 받는 신호. 즉각적 보상이 안이루어지는 경우도 있음
  • policy: agent의 행동패턴. 환경을 행동에 연결짓는 함. a = π(s)
  • optimal policy: 강화학습의 목적은 optimal policy를 찾는 것
  • return(G):  보상. agent가 time에 따라 받게될 할인된 보상의 누적
  • ε - greedy : 
  • Q - learning : 모델 없이 강화하는 학습 방법 중 하나. 주어진 상태(s)에서 주어진 행동(a)를 수행하는 것이 가져다 줄 효용의 기대값을 예측하는 함수인 Q함수를 학습함으로써 최적의 정책을 학습함

 

 

반응형

+ Recent posts