강화학습 #마르코프1 [강화학습]Marcov Process 1️⃣강화학습 최종목표 환경(Environment)과 상호작용하는 Agent를 학습 시키는 것. Agent : 상태(State)라는 상황 안에서 행동(Action)을 취하며 조금씩 학습해 나아간다. action에 의해 양이나 음의 보상(Reward)를 돌려받는다. 정책(Policy) : Agent가 학습을 통해 제공하는 최적의 의사결정 전략 예를 들어 미로탈출 게임이 있다면, (사진하나 넣자~!) Action = 위,아래, 오른쪽, 왼쪽 reward 양(+) = 아이템을 얻은 경우 음(-) = 함정에 빠지거나 죽는 경우 0 = 아무것도 하지않고 돌아다니는 경우 ("특별하지 않은" 보상이 0인 행동이 반드시 필요함 → why? 이를 통해서 실제로 보상 발생시, 어떻게 발생시켰는지를 찾아내기 위해 필요) 직.. 2021. 7. 6. 이전 1 다음