Actor-Critic1 [강화학습] Actor-Critic 이란? 정책과 가치를 함께 학습하는 Actor-Critic 구조 강화학습에서 대표적인 접근 방식으로는 정책 기반(Policy-based)과 가치 기반(Value-based)이 있습니다. 그 두 가지를 결합한 구조가 바로 Actor-Critic입니다. 이 글에서는 Actor-Critic의 구조, 작동 방식, 수식, 그리고 장단점까지 단계적으로 살펴봅니다.왜 Actor-Critic인가?기존의 DQN과 같은 가치 기반 방식은 행동(action)을 선택하기 위해 Q함수를 학습합니다. 반면, 정책 기반 방식은 **확률적으로 직접 행동을 선택하는 정책(policy)**을 학습합니다.Actor-Critic은 다음과 같은 이유로 등장합니다:가치 기반은 불연속(discrete) 행동 공간에서만 잘 작동정책 기반은 varianc.. 2025. 6. 29. 이전 1 다음