Skip to content

markov-decision-process

TL;DR

  • MDP는 강화 학습의 핵심 개념으로, 상태와 행동 간의 확률적 전이를 모델링하는 수학적 프레임워크임.
  • 가치 함수와 벨만 방정식을 이용해 최적 정책을 찾을 수 있음.
  • 동적 프로그래밍, 모델 기반 학습, 모델 프리 강화 학습 등을 통해 해결 가능함.

MDP의 기본 개념

  • 상태(\( S \)): 환경이 가질 수 있는 상태들의 집합.
  • 행동(\( A \)): 에이전트가 선택할 수 있는 행동들의 집합.
  • 전이 확률(\( P(s' | s, a) \)): 현재 상태에서 특정 행동을 수행했을 때 다음 상태로 전이될 확률.
  • 보상(\( R(s, a) \)): 특정 상태에서 행동을 수행했을 때 얻는 보상.
  • 할인율(\( \gamma \)): 미래 보상의 현재 가치에 대한 할인 계수.

마코프 속성 (Markov Property)

  • 현재 상태만 알면 미래 상태를 예측할 수 있음.
  • 과거 상태들은 고려하지 않아도 됨.
  • 확률적 전이 함수:

정책과 가치 함수

정책(Policy, \( \pi \))

  • 정책은 상태에서 행동을 결정하는 규칙.
  • 확정적 정책: \( \pi(s) = a \)
  • 확률적 정책: \( \pi(a | s) \)

가치 함수(Value Function)

  • 상태 가치 함수(\( V^\pi(s) \)): 특정 정책을 따를 때 해당 상태에서 받을 기대 보상.
  • 행동 가치 함수(\( Q^\pi(s, a) \)): 특정 행동을 취했을 때 받을 기대 보상.
\[ V^\pi(s) = \mathbb{E} \left[ \sum_{t=0}^{\infty} \gamma^t R(S_t, A_t) \mid S_0 = s, \pi \right] \]
\[ Q^\pi(s, a) = \mathbb{E} \left[ \sum_{t=0}^{\infty} \gamma^t R(S_t, A_t) \mid S_0 = s, A_0 = a, \pi \right] \]

벨만 방정식과 최적 정책

벨만 기대 방정식

  • 상태 가치 함수:

벨만 최적 방정식

  • 최적 상태 가치 함수:

- 최적 행동 가치 함수:

MDP 해결 방법

동적 프로그래밍(Dynamic Programming, DP)

  • 환경의 전이 확률을 알고 있을 때, 벨만 방정식을 반복적으로 계산하여 최적 정책을 찾음.
  • 정책 반복(Policy Iteration)과 가치 반복(Value Iteration) 방법이 있음.

모델 기반 학습(Model-Based Methods)

  • 환경의 전이 확률이 주어졌을 때 이를 이용해 최적 정책을 계산.

모델 프리 강화 학습(Model-Free RL)

  • 환경의 전이 확률을 모를 때 데이터를 통해 학습.
  • 대표적인 알고리즘:
    • Q-Learning: 행동 가치 함수 \( Q(s, a) \)를 업데이트하여 최적 정책 학습.
    • SARSA: 다음 행동도 정책을 통해 결정하여 학습.

MDP 활용 예시

강화 학습 (Reinforcement Learning)

  • 자율주행, 게임 AI, 로봇 제어 등에서 최적 행동을 찾는 데 사용됨.

자연어 처리 (NLP)

  • 챗봇, 기계 번역에서 대화 전략을 최적화하는 데 적용됨.

추천 시스템

  • 사용자 행동을 예측하고 맞춤형 추천을 생성하는 데 활용됨.

결론

  • MDP는 강화 학습의 수학적 기반이며, 최적 정책을 찾기 위한 핵심 개념임.
  • 가치 함수와 벨만 방정식을 활용해 최적 정책을 계산할 수 있음.
  • 동적 프로그래밍, 모델 기반 학습, 모델 프리 학습을 통해 다양한 방법으로 해결 가능함.