PPO1 [강화학습] PPO 란? 안정성과 성능을 동시에 잡은 PPO 알고리즘 완전 해부Proximal Policy Optimization(PPO)은 OpenAI가 제안한 대표적인 정책 기반 강화학습 알고리즘입니다. PPO는 Actor-Critic 구조 위에 "정책 변화의 폭을 제한하는 방식"을 더해 학습 안정성과 성능을 동시에 확보합니다.왜 PPO인가?기존의 정책 경사(policy gradient) 방식은 다음과 같은 문제를 안고 있었습니다:학습률을 너무 크게 주면 정책이 급격히 바뀌어 불안정해짐너무 작게 주면 수렴 속도가 느려짐TRPO(Trust Region Policy Optimization)는 이를 해결했지만 계산량이 많고 구현이 복잡PPO는 TRPO의 아이디어를 유지하면서도, 계산은 훨씬 간단한 방식으로 안정적인 학습을 가능하게.. 2025. 6. 30. 이전 1 다음