RL - Policy Gradient | Legos's blog

Review lại bài trước

Để bắt đầu bài viết này, chúng ta cần xem lại một số khái niệm cơ bản của Reinforcement Learning (RL) mà bạn đã làm quen ở bài trước.

Mô hình chuẩn của RL

Mọi bài toán RL, từ việc huấn luyện robot bước đi đến việc xây dựng một AI chơi cờ, đều dựa trên một mô hình tương tác vòng lặp không hồi kết:

Agent (Tác tử): Là "bộ não", thực thể đưa ra các quyết định dựa trên những gì nó quan sát được.
Environment (Môi trường): Là thế giới xung quanh Agent, phản hồi lại các hành động của nó.
State ( $s_t$ ): Trạng thái hiện tại của Agent trong môi trường tại thời điểm $t$ .
Action ( $a_t$ ): Hành động mà Agent thực hiện tại thời điểm $t$ .
Reward ( $r_t$ ): Phần thưởng (hoặc hình phạt) mà Agent nhận được ngay sau khi thực hiện hành động $a_t$ và chuyển sang trạng thái mới $s_{t+1}$ .

Mục tiêu tối thượng của Agent không phải là ăn tối đa hóa $r_t$ ngay lập tức, mà là tối đa hóa tổng phần thưởng tích lũy (total reward) trong suốt quá trình tương tác.

Hai hướng tiếp cận chính: Value-based vs. Policy-based

Có hai tư duy chủ đạo để giúp Agent đạt được mục tiêu tối thượng đó:

Value-based (Tiếp cận dựa trên giá trị): Ở lộ trình này, Agent cố gắng học giá trị (Value) của các trạng thái hoặc các cặp trạng thái-hành động.
- Ví dụ: Q-learning hay DQN.
- Tư duy: "Nếu tôi ở trạng thái này và làm hành động kia, tôi sẽ thu được bao nhiêu lợi ích về lâu dài?". Sau khi biết giá trị của mọi hành động, Agent chỉ việc chọn cái nào có giá trị lớn nhất (argmax).
- Hạn chế: Gặp khó khăn khi không gian hành động quá lớn hoặc là không gian liên tục (continuous), vì việc tìm hành động tốt nhất qua hàm argmax lúc này trở nên cực kỳ đắt đỏ về mặt tính toán và không khả vi.
Policy-based (Tiếp cận dựa trên chính sách): Đây chính là trọng tâm của bài viết này. Thay vì học hàm giá trị để suy ra hành động, chúng ta học trực tiếp Chính sách $\pi_{\theta}$
- Ví dụ: Thuật toán REINFORCE, PPO, A2C.
- Tư duy: "Tôi sẽ học một hàm số $\pi_{\theta}(a|s)$ để trả về trực tiếp xác suất chọn hành động $a$ khi đang ở trạng thái $s$ ".
- Ưu điểm: Phương pháp này cực kỳ linh hoạt, có thể hoạt động hiệu quả với mọi không gian hành động (rời rạc hoặc liên tục) và đặc biệt là chính sách có tính khả vi, cho phép chúng ta sử dụng các kỹ thuật tối ưu hóa mạnh mẽ như Gradient Ascent.

Bài toán Grid-World

Đây là bài toán làm ví dụ xuyên suốt cả bài viết. Hãy tưởng tượng một Agent đang ở trong một mê cung ô lưới $4 \times 4$ (GridWorld) như hình dưới đây:

Mục tiêu của Agent là tìm đường đến G mà có thể tối đa hóa phần thưởng nhận được với các thông tin sau:

S (Start): Điểm bắt đầu.
G (Goal): Đích đến - nơi Agent nhận được phần thưởng hậu hĩnh ( $+100$ ). Khi đến đích thì giả lập kết thúc.
Ô đỏ: Đi vào sẽ bị phạt nặng (phần thưởng $=-10$ )
Ô trắng: Đi vào sẽ bị phạt nhẹ (phần thưởng $=-1$ )

Luật chơi: Agent tại một ô bất kỳ có thể đi 1 trong 4 hướng: Lên, Xuống, Trái, Phải để sang ô mới.

Định nghĩa Policy

Trong RL, Policy ( $\pi$ ) chính là thực thể đóng vai trò quyết định hành động dựa trên những gì Agent quan sát được từ môi trường. Để máy tính có thể học và cải thiện được chính sách này, chúng ta cần cụ thể hóa nó dưới dạng các hàm toán học. Có hai cách cơ bản để mô tả một chính sách:

Deterministic Policy (Chính sách định mệnh): Đây là dạng đơn giản nhất, trong đó Agent luôn chọn một hành động cố định cho mỗi trạng thái cụ thể: $a = \pi(s)$ . Giống như một quy tắc cứng nhắc: "Nếu thấy đèn đỏ, chắc chắn phải dừng lại".
Stochastic Policy (Chính sách ngẫu nhiên): Ở dạng này, chính sách không trả về một hành động duy nhất mà trả về một phân phối xác suất trên tập hợp các hành động: $a \sim \pi(a|s)$ . Nghĩa là tại trạng thái $s$ , Agent có thể chọn hành động $a$ với xác suất $P$ nào đó.

Để có thể dùng các thuật toán tối ưu hóa (như Gradient Ascent), chúng ta cần biến Policy thành một hàm số phụ thuộc vào một bộ tham số $\theta$ (ví dụ: các trọng số trong mạng Neural). Lúc này, policy được ký hiệu là $\pi_\theta(a|s)$ . Lúc đó, khi chúng ta thay đổi giá trị của $\theta$ , xác suất chọn các hành động tại các trạng thái sẽ thay đổi theo. Như vậy, công việc của chúng ta bây giờ là đi tìm bộ tham số $\theta$ sao cho chính sách $\pi_\theta$ tạo ra những hành động mang lại tổng phần thưởng lớn nhất. Đây chính là nền tảng của họ thuật toán Policy Gradient: Thay vì đi tìm giá trị của trạng thái, chúng ta đi tính toán gradient của hàm mục tiêu theo tham số $\theta$ để trực tiếp nâng cấp chính sách của mình. Ví dụ chúng ta có thể chọn hàm softmax thông qua mạng neural để tính: $\pi_\theta(a|s) = \text{softmax}(f_\theta(s))$ , sau đó qua qua trình huấn luyện, chúng ta điều chỉnh $\theta$ dần để tối ưu dần hàm $\pi_\theta$ .

Hàm mục tiêu $J(\theta)$

Trong RL, mục tiêu của chúng ta không phải là tối ưu một hành động đơn lẻ, mà là tối ưu cả một quá trình tương tác. Ta định nghĩa Hàm mục tiêu $J(\theta)$ , đại diện cho kỳ vọng về tổng phần thưởng mà Agent nhận được khi tuân theo chính sách $\pi_\theta$ :

J(\theta) = \mathbb{E}_{\tau \sim \pi_{\theta}} [R(\tau)] = \mathbb{E}_{\tau \sim \pi_{\theta}} \left[ \sum_{t=0}^{T} \gamma^{t} r_t \right]

Trong đó:

$\tau = (s_0, a_0, r_0, s_1, a_1, r_1, ...)$ : Được gọi là một quỹ đạo (trajectory) hoặc một Episode. Nó là chuỗi các trạng thái, hành động và phần thưởng mà Agent trải qua từ đầu đến cuối. Đối với bài toán grid world thì trajectory có thể là tập hợp các bước đã đi cùng với phần thưởng kèm theo mỗi bước kể từ lúc agent bắt đầu đến lúc kết thúc.
$R(\tau)$ : Tổng phần thưởng tích lũy (Return) của quỹ đạo $\tau$ .
$\gamma \in [0, 1)$ : Hệ số chiết khấu (discount factor), giúp cân bằng giữa giá trị tức thời và giá trị tương lai. Lý do ta đưa hệ số chiết khấu là để giá trị $J(\theta)$ hội tụ (chuỗi hình học)
$\mathbb{E}_{\tau \sim \pi_{\theta}}$ : Ký hiệu Kỳ vọng (Expectation). Vì môi trường và chính sách có tính ngẫu nhiên, Agent có thể đi theo nhiều quỹ đạo khác nhau. Ở đây, $\tau \sim \pi_\theta$ có ý nghĩa là $\tau$ được lấy mẫu từ phân phối do policy $\pi_\theta$ (và môi trường) sinh ra. $J(\theta)$ là giá trị trung bình mà Agent mong đợi nhận được nếu thực hiện nhiệm vụ vô số lần với cùng một $\theta$ .

Để tối ưu hóa, chúng ta sử dụng phương pháp Gradient Ascent nhằm cập nhật $\theta$ theo hướng tăng tiến của hàm mục tiêu:

\theta \leftarrow \theta + \alpha \nabla_{\theta} J(\theta)

Trajectory (quỹ đạo)

Mình đã nhắc đến điều này ở bên trên và nhắc lại ở đây vì muốn các bạn phải hiểu thật rõ ràng trajectory là gì. Một Trajectory $\tau$ , hay còn gọi là quỹ đạo, là một chuỗi các diễn biến từ lúc Agent bắt đầu cho đến khi kết thúc. Đối với bài toán grid world thì trajectory có thể là tập hợp các bước đã đi kể từ lúc agent bắt đầu đến lúc kết thúc (đi đến mục tiêu). Tuy nhiên, đối với một số trường hợp, ví dụ như trò chơi vô hạn như giữ gậy thăng bằng, chúng ta có thể xác định một độ dài nhất định cho trajectory mà không nhất thiết phải chờ tới trạng thái kết thúc mới tạo nên một trajectory:

\tau = (s_0, a_0, s_1, a_1, s_2, a_2, \dots, s_{T-1}, a_{T-1})

Đi kèm với mỗi bước đi là một phần thưởng $r_t$ , tạo nên tổng lợi nhuận $R(\tau) = \sum_{t=0}^{T-1} \gamma^t r_t$ . Dựa trên tính chất Markov (trạng thái tiếp theo chỉ phụ thuộc vào trạng thái và hành động hiện tại):

P(s_{t+1} | s_0, a_0, ..., s_t, a_t) = P(s_{t+1} | s_t, a_t)

Xác suất để quỹ đạo $\tau$ xảy ra khi Agent tuân theo chính sách $\pi_\theta$ là tích của các xác suất thành phần:

P(\tau|\theta) = P(s_0) \prod_{t=0}^{T-1} \underbrace{\pi_{\theta}(a_t|s_t)}_{\text{Policy}} \underbrace{P(s_{t+1}|s_t, a_t)}_{\text{Dynamics}}

Khi nhìn vào công thức này, ta thấy một chi tiết cực kỳ thú vị:

$P(s_0)$ và $P(s_{t+1}|s_t, a_t)$ là các thành phần thuộc về môi trường (Environment Dynamics). Agent hoàn toàn không biết và không thể điều khiển được quy luật vật lý hay logic này của môi trường.
Chỉ có $\pi_{\theta}(a_t|s_t)$ là thành phần duy nhất phụ thuộc vào tham số $\theta$ của Agent.

Mục tiêu của chúng ta là tính đạo hàm của hàm mục tiêu:

\begin{align*} \nabla_{\theta} J(\theta) &= \nabla_{\theta} \mathbb{E}_{\tau \sim \pi_{\theta}} [R(\tau)] \\ & = \nabla_{\theta} \sum_{\tau} P(\tau|\theta) R(\tau) \\ & = \sum_{\tau} \nabla_{\theta} P(\tau|\theta) R(\tau) \end{align*}

Trong đó, $\displaystyle \sum_\tau$ là tổng trên tất cả các quỹ đạo có thể xảy ra dưới phần phối được sinh ra bởi policy $\pi_\theta$ và môi trường. Để ý là sở dĩ ta có đẳng thức trên là vì:

Reward bị chặn do $\gamma < 1$
Policy là hàm được chọn sao cho là hàm trơn (softmax, ...)

Vấn đề nan giải ở đây là chúng ta không thể tính trực tiếp đạo hàm này vì chúng ta không biết $P(\tau|\theta)$ . Cụ thể hơn, ta không biết các xác suất chuyển trạng thái $P(s_{t+1}|s_t, a_t)$ của môi trường. Trong thực tế, môi trường thường là một "hộp đen" (Black-box), ta chỉ có thể tương tác và lấy mẫu chứ không có công thức cụ thể. Tuy nhiên chúng ta lại tìm ra được một giải pháp rất thú vị cho vấn đề này thông qua Log-Derivative trick.

Log-Derivative trick

Dựa trên quy tắc đạo hàm hàm hợp: $\displaystyle \frac{d}{dx} \log f(x) = \frac{f'(x)}{f(x)}$ , ta có thể viết lại:

\nabla_{\theta} P(\tau|\theta) = P(\tau|\theta) \frac{\nabla_{\theta} P(\tau|\theta)}{P(\tau|\theta)} = P(\tau|\theta) \nabla_{\theta} \log P(\tau|\theta)

Áp dụng vào đạo hàm của hàm mục tiêu $J(\theta)$ :

\begin{align*} \nabla_{\theta} J(\theta) &= \sum_{\tau} \nabla_{\theta} P(\tau|\theta) R(\tau) \\ &= \sum_{\tau} P(\tau|\theta) \nabla_{\theta} \log P(\tau|\theta) R(\tau) \\ &= \mathbb{E}_{\tau \sim \pi_{\theta}} [\nabla_{\theta} \log P(\tau|\theta) R(\tau)] \end{align*}

Khi ta khai triển $\nabla_{\theta} \log P(\tau|\theta)$ từ công thức trên:

\nabla_\theta\log P(\tau|\theta) = \nabla_\theta\left[ \log P(s_0) + \sum_{t=0}^{T-1} \log \pi_{\theta}(a_t|s_t) + \sum_{t=0}^{T-1} \log P(s_{t+1}|s_t, a_t) \right ]

Do ta lấy đạo hàm theo $\theta$ nên:

$\nabla_{\theta} \log P(s_0) = 0$ (vì không phụ thuộc $\theta$ ).
$\nabla_{\theta} \log P(s_{t+1}|s_t, a_t) = 0$ (vì không phụ thuộc $\theta$ ).

Cuối cùng ta có:

\nabla_{\theta} \log P(\tau|\theta) = \sum_{t=0}^{T-1} \nabla_{\theta} \log \pi_{\theta}(a_t|s_t)

Tuyệt vời! Sau khi đưa về dạng $\log$ , thành phần không biết $P(\tau|\theta)$ đã trở thành tính đạo hàm của log-policy $\nabla_\theta \log \pi_\theta(a_t|s_t)$ tại mỗi bước thời gian, mà $\pi_\theta$ là thứ mà ta có thể biết được vì chính chúng ta là người thiết kế ra nó.

Định lý Policy Gradient (Policy Gradient Theorem)

Kết hợp tất cả những mảnh ghép từ đầu bài viết, chúng ta đi đến công thức tổng quát của Định lý Policy Gradient ở dạng quỹ đạo (Trajectory form):

\nabla_{\theta} J(\theta) = \mathbb{E}_{\tau \sim \pi_{\theta}} \left[ \sum_{t=0}^{T-1} \nabla_{\theta} \log \pi_{\theta}(a_t|s_t) \cdot R(\tau) \right]

Về bản chất, công thức này đang thực hiện một quy tắc "thưởng - phạt" rất logic:

$\nabla_{\theta} \log \pi_{\theta}(a_t|s_t)$ : Đây là hướng để tăng xác suất chọn hành động $a_t$ tại trạng thái $s_t$ .
$R(\tau)$ : Đây là trọng số (vừa là độ lớn, vừa là chiều).
- Nếu quỹ đạo $\tau$ có tổng phần thưởng $R(\tau)$ dương và rất lớn, ta sẽ đẩy mạnh xác suất của tất cả các hành động trong quỹ đạo đó lên.
- Nếu $R(\tau)$ âm hoặc rất nhỏ, ta sẽ giảm xác suất của các hành động này xuống.

Nói cách khác: "Nếu hành trình này mang lại kết quả tốt, hãy ghi nhớ và thực hiện các hành động này thường xuyên hơn trong tương lai".

Reward-To-Go

Mặc dù công thức trên đúng về mặt toán học, nhưng nó lại gặp một vấn đề nghiêm trọng về mặt logic thực tế và hiệu suất huấn luyện, đó là Tính nhân quả (Causality). Hãy nhìn vào một hành động $a_t$ tại thời điểm $t$ . Trong công thức trên, hành động $a_t$ đang bị nhân với toàn bộ tổng phần thưởng $R(\tau)$ của cả hành trình.

$R(\tau)$ bao gồm cả những phần thưởng từ quá khứ (từ thời điểm $0$ đến $t-1$ ).
Ở đây, có một điều phi lý là một hành động thực hiện ở hiện tại không thể nào thay đổi được những gì đã xảy ra trong quá khứ. Việc bắt hành động $a_t$ "chịu trách nhiệm" cho những phần thưởng quá khứ sẽ tạo ra rất nhiều nhiễu (noise) và làm tăng phương sai (variance) cho quá trình học.

Để sửa lỗi này, chúng ta thay thế $R(\tau)$ bằng Reward-to-go $G_t$ — chỉ tính tổng phần thưởng từ thời điểm hành động được thực hiện cho đến khi kết thúc:

G_t = \sum_{k=t}^{T-1} \gamma^{k-t} r_k

Để dễ hình dung hãy xem hình minh họa dưới đây theo trục thời gian để thây Reward-to-Go chỉ được tính kể từ thời điểm $t$ trở đi

Lúc này, công thức Policy Gradient được tinh chỉnh lại thành:

\nabla_{\theta} J(\theta) = \mathbb{E}_{\tau \sim \pi_{\theta}} \left[ \sum_{t=0}^{T-1} \nabla_{\theta} \log \pi_{\theta}(a_t|s_t) \cdot G_t \right]

Ở đây, chỉ còn một nút thắt, đó là ta không thể tính được kỳ vọng chính xác (vì không thể duyện được mọi $\tau$ - không gian có thể quá lớn). Vì thế ta thay kỳ vọng bằng trung bình mẫu (Monte Carlo). Lấy $N$ quỹ đạo độc lập:

\tau^{(2)}, \dots, \tau^{(N)} \sim \pi_\theta

Sau đó, ta xấp xỉ gradient:

\nabla_\theta J(\theta) \approx \frac{1}{N}\sum_{i=1}^{N}\sum_{t=0}^{T-1} \nabla_\theta \log \pi_\theta\big(a_t^{(i)}\mid s_t^{(i)}\big)\, G_t^{(i)}

Đây chính là REINFORCE estimator, đó chính là tư tưởng của thuật toán REINFORCE tiếp theo dưới đây.

Thuật toán REINFORCE (Williams, 1992)

Dưới đây là chi tiết thuật toán, mình sẽ dùng tiếng Anh, để cho các bạn quen mắt với các từ khóa for, do, ...

Input: Policy $\pi_\theta$ , learning rate $\alpha$
for each episode do:
Collect trajectory $\tau = (s_0,a_0,r_0,\dots, s_{T-1}, a_{T-1}, r_{T-1})$ using $\pi_\theta$
for $t=0,1,\dots,T-1$ do:
Compute Reward-to-Go: $\displaystyle G_t=\sum_{k=t}^{T-1} \gamma^{k-t}r_k$
end for
Update: $\displaystyle \theta \leftarrow \theta + \alpha\sum{t=0}^{T-1} \nabla_\theta\log \pi_\theta(a_t|s_t). G_t$
end for

Để dễ hình dung việc tính toán của thuật toán, hãy xem một ví dụ tính toán cụ thể cho bài toán Gridworld bên trên như sau:

Bước 1: Thiết lập

Để máy tính hiểu được chính sách, ta thường dùng một mạng neural đơn giản hoặc một hàm tuyến tính để đại diện cho $\pi_\theta(a|s)$ .

Hàm Chính sách: $\pi_\theta(a|s) = \text{softmax}(f_\theta(s, a))$ .
- Hàm softmax đảm bảo tổng xác suất của 4 hướng (Lên, Xuống, Trái, Phải) luôn bằng $1$ .
Learning Rate ( $\alpha$ ): Thường chọn một giá trị nhỏ, ví dụ $0.01$ hoặc $0.001$ , để các bước cập nhật tham số diễn ra ổn định, không làm chính sách bị thay đổi quá đột ngột dẫn đến mất dấu đường đi tốt.
Hệ số chiết khấu ( $\gamma$ ): Chọn $\gamma = 0.9$ để Agent ưu tiên những phần thưởng sớm.
Trajectory Length ( $T = 3$ ) : chiều dài của một trajectory.

Bước 2: Kịch bản trajectory 3 bước

Giả sử Agent bắt đầu từ điểm S:

$t=0$ : Từ $s_0$ , chọn đi Phải ( $a_0$ ). Nhận thưởng $r_0 = -1$ .
$t=1$ : Từ $s_1$ (vị trí A), chọn đi Lên ( $a_1$ ). Đây là hành động sai lầm dẫn vào ô đỏ. Nhận thưởng $r_1 = -10$ .
$t=2$ : Từ $s_2$ (trong ô đỏ), chọn đi Trái ( $a_2$ ) để quay lại ô an toàn. Nhận thưởng $r_2 = -1$ .

Bước 3: Tính Reward-to-go ( $G_t$ )

Chúng ta tính lùi từ bước cuối cùng:

Tại $t=2$ : $G_2 = r_2 = \mathbf{-1}$ .
Tại $t=1$ : $G_1 = r_1 + \gamma r_2 = -10 + 0.9(-1) = \mathbf{-10.9}$ .
Tại $t=0$ : $G_0 = r_0 + \gamma r_1 + \gamma^2 r_2 = -1 + 0.9(-10) + 0.81(-1) = \mathbf{-10.81}$ .

Bước 4: Cập nhật $\theta$

Cuối cùng thuật toán REINFORCE sẽ điều chỉnh bộ tham số $\theta$ qua công thức:

\theta \leftarrow \theta + \alpha \sum_{t=0}^{2} \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot G_t

Nhận xét:

Dù cả 3 hành động đều nhận $G_t$ âm, nhưng mức độ "phạt" là khác nhau. Hành động trực tiếp dẫn vào ô đỏ ( $t=1$ ) bị phạt nặng nhất ( $G_1 = -10.9$ ). Qua nhiều lần thử (Episodes), nếu Agent tìm được một quỹ đạo khác (ví dụ: đi Phải -> đi Phải) để tới đích nhận $+100$ , lúc đó $G_t$ sẽ trở nên dương rất lớn. Khi đó, Gradient sẽ đảo chiều và "củng cố" (reinforce) những tham số giúp tăng xác suất của những hành động đúng đắn đó lên.

Thuật toán REINFORCE với baseline

Vấn đề của thuật toán REINFORCE

Từ phần trước, theo công thức ta có:

\nabla_\theta J(\theta) \approx \frac{1}{N}\sum_{i=1}^{N}\sum_{t=0}^{T-1} \nabla_\theta \log \pi_\theta\big(a_t^{(i)}\mid s_t^{(i)}\big)\, G_t^{(i)}

Đây là một Monte Carlo estimator của gradient. Điều đó có nghĩa là ta đang lấy mẫu một số trajectory từ phân phối sinh ra từ $\pi_\theta$ và chúng dùng để xấp xỉ một kỳ vọng trên toàn bộ không gian quỹ đạo. Tuy nhiên, mỗi trajectory có thể rất khác nhau làm cho $G_t$ dao động mạnh, từ đó gradient cũng bị dao động mạnh. hay nói cách khác, là estimator bị variance cao do:

Ta chỉ lấy hữu hạn mẫu
Mỗi trajectory là một “lịch sử ngẫu nhiên” khác nhau
Một hành động tại thời điểm $t$ bị nhân với toàn bộ $G_t$ mà $G_t$ lại chứa nhiều phần thưởng không liên quan trực tiếp đến hành động đó.

Khi variance cao, các giá trị $G_t$ dao động rất mạnh — có trajectory cho giá trị rất lớn, có trajectory lại rất nhỏ hoặc âm. Điều này khiến gradient update trở nên “hỗn loạn”, lúc thì nhảy rất mạnh, lúc thì gần như không đáng kể. Để ổn định hơn, ta chuẩn hóa tương đối bằng cách trừ đi một mốc tham chiếu baseline $b(s_t)$ :

G_t \longrightarrow G_t - b(s_t)

Ý nghĩa của việc này là thay vì dùng giá trị $G_t$ trực tiếp, ta chỉ quan tâm: "kết quả này tốt hơn hay kém hơn mức bình thường?". Ta cải tiến estimator:

\nabla_\theta J(\theta) = \mathbb E_{\tau \sim \pi_\theta}\left[ \sum_{t=0}^{T-1} \nabla_\theta \log \pi_\theta(a_t|s_t)(G_t - b(s_t)) \right]

Hình dưới cho thấy phân phối của gradient trước và sau khi dùng baseline.

Khi không có baseline, gradient có độ phân tán lớn, với nhiều giá trị cực đoan
Khi trừ baseline, phân phối co lại rõ rệt quanh 0

Điều này cho thấy Baseline không làm thay đổi dữ liệu đầu vào, mà làm ổn định tín hiệu học (gradient).

Liệu việc trừ $b(s_t)$ có làm sai lệch (bias) gradient không? $\Rightarrow$ KHÔNG (unbiased).

Bắt đầu từ công thức Policy Gradient với baseline:

\nabla_\theta J(\theta) = \mathbb E_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^{T-1} \nabla_\theta \log \pi_\theta(a_t|s_t)(G_t - b(s_t)) \right]

Dựa trên tính chất tuyến tính của kỳ vọng ( $\mathbb{E}[X - Y] = \mathbb{E}[X] - \mathbb{E}[Y]$ ), ta tách biểu thức thành hai phần:

\nabla_\theta J(\theta) = \underbrace{\mathbb E_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^{T-1} \nabla_\theta \log \pi_\theta(a_t|s_t)G_t \right]}_{\text{Gradient gốc}} - \underbrace{\mathbb E_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^{T-1} \nabla_\theta \log \pi_\theta(a_t|s_t)b(s_t) \right]}_{\text{Thành phần Baseline}}

Để chứng minh $\nabla_\theta J(\theta)$ không bị chệch, ta phải chứng minh Thành phần Baseline bằng 0.

Xét thành phần Baseline. Ta đưa dấu tổng ra ngoài kỳ vọng và áp dụng Luật kỳ vọng lặp (Law of Iterated Expectations) để tách biệt trạng thái $s_t$ và hành động $a_t$ :

\mathbb E_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^{T-1} \nabla_\theta \log \pi_\theta(a_t|s_t)b(s_t) \right] = \sum_{t=0}^{T-1} \mathbb E_{s_t \sim P} \left[ \mathbb E_{a_t \sim \pi_\theta} \left[ \nabla_\theta \log \pi_\theta(a_t|s_t)b(s_t) \big| s_t \right] \right]

Xét biểu thức bên trong tại một trạng thái $s_t$ cố định $\mathbb E_{a_t \sim \pi_\theta} \left[ \nabla_\theta \log \pi_\theta(a_t|s_t)b(s_t) \big| s_t \right]$ , vì $b(s_t)$ hoàn toàn không phụ thuộc vào hành động $a_t$ , nó được coi là một hằng số đối với phép lấy kỳ vọng theo $a_t$ . Ta đưa $b(s_t)$ ra ngoài:

\mathbb E_{a_t \sim \pi_\theta} \left[ \nabla_\theta \log \pi_\theta(a_t|s_t)b(s_t) \big| s_t \right] = b(s_t) \cdot \mathbb E_{a_t \sim \pi_\theta} \left[ \nabla_\theta \log \pi_\theta(a_t|s_t) \big| s_t \right]

Khai triển kỳ vọng theo định nghĩa tổng xác suất:

\mathbb E_{a_t \sim \pi_\theta} \left[ \nabla_\theta \log \pi_\theta(a_t|s_t)b(s_t) \big| s_t \right] = b(s_t) \cdot \sum_{a \in A} \pi_\theta(a|s_t) \nabla_\theta \log \pi_\theta(a|s_t)

Thay $\nabla_\theta \log \pi_\theta(a|s_t) = \frac{\nabla_\theta \pi_\theta(a|s_t)}{\pi_\theta(a|s_t)}$ vào biểu thức:

\begin{align*} \mathbb E_{a_t \sim \pi_\theta} \left[ \nabla_\theta \log \pi_\theta(a_t|s_t)b(s_t) \big| s_t \right] &= b(s_t) \cdot \sum_{a \in A} \pi_\theta(a|s_t) \frac{\nabla_\theta \pi_\theta(a|s_t)}{\pi_\theta(a|s_t)} \\ &= b(s_t) \cdot \sum_{a \in A} \nabla_\theta \pi_\theta(a|s_t) \end{align*}

Vì $\pi_\theta(a|s_t)$ là một phân phối xác suất hợp lệ trên không gian hành động $A$ , tổng xác suất của nó luôn luôn bằng 1 với mọi $\theta$ :

\sum_{a \in A} \pi_\theta(a|s_t) = 1

Thay vào ta có:

\mathbb E_{a_t \sim \pi_\theta} \left[ \nabla_\theta \log \pi_\theta(a_t|s_t)b(s_t) \big| s_t \right]= b(s_t) \cdot \nabla_\theta (1)

Vì đạo hàm của hằng số 1 theo $\theta$ bằng 0, ta thu được:

\mathbb E_{a_t \sim \pi_\theta} \left[ \nabla_\theta \log \pi_\theta(a_t|s_t)b(s_t) \big| s_t \right]= b(s_t) \cdot 0 = 0

Do mọi thành phần trong dấu tổng đều bằng 0, ta có:

\mathbb E_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^{T-1} \nabla_\theta \log \pi_\theta(a_t|s_t)b(s_t) \right] = 0

Vậy:

\nabla_\theta J(\theta) = \mathbb E_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^{T-1} \nabla_\theta \log \pi_\theta(a_t|s_t)(G_t - b(s_t)) \right]= \mathbb E_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^{T-1} \nabla_\theta \log \pi_\theta(a_t|s_t)G_t \right]

Chứng minh hoàn tất. Việc thêm baseline không hề làm thay đổi giá trị kỳ vọng của Gradient.

Vậy chọn baseline thế nào?

Sau khi đã chứng minh được rằng việc trừ đi một baseline $b(s_t)$ không làm chệch (bias) gradient, câu hỏi quan trọng nhất là:

Nên chọn $b(s_t)$ như thế nào để tối ưu nhất?

Mục tiêu cốt lõi của baseline là giảm phương sai (variance). Một baseline tốt sẽ giúp Agent phân biệt được đâu là một hành động "thực sự tốt" so với mặt bằng chung, thay vì chỉ dựa vào những con số phần thưởng tuyệt đối đôi khi rất nhiễu.

Trong thực tế, lựa chọn phổ biến và hiệu quả nhất cho baseline chính là Hàm giá trị trạng thái (State-Value Function) đại diện cho kỳ vọng về tổng phần thưởng mà Agent sẽ nhận được nếu bắt đầu từ trạng thái $s$ tại thời điểm $t$ và tuân thủ theo chính sách $\pi$ cho đến khi kết thúc Episode.Trong thuật toán Policy Gradient, baseline tốt nhất là giá trị kỳ vọng của tổng phần thưởng tính từ trạng thái hiện tại:

b(s_t) = V^{\pi_\theta}(s) = \mathbb{E}_{\pi_\theta} \left[ \sum_{k=t}^{T-1} \gamma^{k-t} r_{k} \big| s_t = s \right]

Trong đó:

$V^{\pi_\theta}(s)$ : Hàm tính giá trị trung bình của trạng thái $s$ khi Agent hành động dựa trên policy tham số $\theta$
$\mathbb{E}_{\pi_\theta}[\dots|s_t=s]$ : Giá trị kỳ vọng khi Agent hành động theo chính sách $\pi_\theta$ , với điều kiện là Agent đang đứng tại trạng thái cụ thể $s$ vào thời điểm $t$ .
$\gamma$ : Hệ số chiết khấu ( $0 \le \gamma \le 1$ ), giúp cân bằng giữa phần thưởng tức thời và phần thưởng trong tương lai.
$r_k$ : Phần thưởng nhận được tại bước thứ $k$ .

Vấn đề là chúng ta không thể tính toán giá trị $b(s_t)$ (hay $V^{\pi_\theta}(s)$ ) một cách trực tiếp được, vì chúng ta không biết giá trị kỳ vọng $\mathbb{E}_{\pi_\theta}$ thực sự của môi trường là bao nhiêu vì Agent không biết trước xác suất chuyển trạng thái hay toàn bộ các kịch bản phần thưởng có thể xảy ra. Do đó, chúng ta xem $V$ như một hàm số xấp xỉ có tham số $\phi$ ký hiệu là $V_\phi(s)$ . Thay vì tính toán kỳ vọng trên lý thuyết, ta bắt hàm $V_\phi(s)$ phải "học" từ chính những kết quả thực tế ( $G_t$ ) mà Agent thu thập được.

Lúc này, trong mỗi bước lặp của thuật toán REINFORCE, chúng ta thực hiện hai nhiệm vụ song song:

Cập nhật Chính sách $\theta$ : Dùng hiệu số $(G_t - V_\phi(s_t))$ để điều chỉnh hành động. Hiệu số này cho biết hành động này mang lại "lợi thế" bao nhiêu so với mức trung bình.
$\theta \leftarrow \theta + \alpha_\theta \nabla_\theta \log \pi_\theta(a_t|s_t) (\underbrace{G_t - V_\phi(s_t)}_{\delta_t})$
Cập nhật Hàm giá trị $\phi$ : Điều chỉnh hàm $V_\phi$ sao cho dự đoán của nó ngày càng gần với phần thưởng thực tế $G_t$ hơn (thường bằng cách giảm thiểu sai số bình phương):
$\text{Minimize: } (G_t - V_\phi(s_t))^2$

Thuật toán updated với baseline

Input: Policy $\pi_\theta$ , value funtion $V_\phi$ , learning rates $\alpha_\theta,\alpha_\phi$
for each episode do:
Collect trajectory $\tau = (s_0,a_0,r_0,\dots, s_{T-1}, a_{T-1}, r_{T-1})$ using $\pi_\theta$
for $t=0,1,\dots,T-1$ do:
Compute Reward-to-Go: $\displaystyle G_t=\sum_{k=t}^{T-1} \gamma^{k-t}r_k$
$\delta_t = G_t - V_\phi(s_t)$
$\theta \leftarrow \theta + \alpha_\theta .\gamma^t.\delta_t.\nabla_\theta \log \pi_\theta(a_t|s_t)$
$\phi \leftarrow \phi - \alpha_\phi \nabla_\phi(G_t - V_\phi(s_t))^2$
end for
end for

Demo

Cuối cùng là Demo cho trò chơi Gridworld ở trên. Bạn sẽ trải nghiệm cả 3 phương pháp tính toán: $R_t, G_t, G_t \text{ with baseline}$ . Trong demo, bạn sẽ có thể train theo từng phương pháp, chọn vào từng item, bạn sẽ nhìn thấy chi tiết toán cụ thể và simulation Agent di chuyển thế nào.

Reinforcement Learning - Học theo Chính Sách (Policy Gradient)

Review lại bài trước

Mô hình chuẩn của RL

Hai hướng tiếp cận chính: Value-based vs. Policy-based

Bài toán Grid-World

Định nghĩa Policy

Hàm mục tiêu $J(\theta)$

Trajectory (quỹ đạo)

Log-Derivative trick

Định lý Policy Gradient (Policy Gradient Theorem)

Reward-To-Go

Thuật toán REINFORCE (Williams, 1992)

Bước 1: Thiết lập

Bước 2: Kịch bản trajectory 3 bước

Bước 3: Tính Reward-to-go ( $G_t$ )

Bước 4: Cập nhật $\theta$

Nhận xét:

Thuật toán REINFORCE với baseline

Vấn đề của thuật toán REINFORCE

Liệu việc trừ $b(s_t)$ có làm sai lệch (bias) gradient không? $\Rightarrow$ KHÔNG (unbiased).

Vậy chọn baseline thế nào?

Thuật toán updated với baseline

Demo

More from AI & ML

Comments

Reinforcement Learning - Học theo Chính Sách (Policy Gradient)

Review lại bài trước

Mô hình chuẩn của RL

Hai hướng tiếp cận chính: Value-based vs. Policy-based

Bài toán Grid-World

Định nghĩa Policy

Hàm mục tiêu J(θ)J(\theta)J(θ)

Trajectory (quỹ đạo)

Log-Derivative trick

Định lý Policy Gradient (Policy Gradient Theorem)

Reward-To-Go

Thuật toán REINFORCE (Williams, 1992)

Bước 1: Thiết lập

Bước 2: Kịch bản trajectory 3 bước

Bước 3: Tính Reward-to-go (GtG_tGt​)

Bước 4: Cập nhật θ\thetaθ

Nhận xét:

Thuật toán REINFORCE với baseline

Vấn đề của thuật toán REINFORCE

Liệu việc trừ b(st)b(s_t)b(st​) có làm sai lệch (bias) gradient không? ⇒\Rightarrow⇒KHÔNG (unbiased).

Vậy chọn baseline thế nào?

Thuật toán updated với baseline

Demo

More from AI & ML

Comments

Hàm mục tiêu $J(\theta)$

Bước 3: Tính Reward-to-go ( $G_t$ )

Bước 4: Cập nhật $\theta$

Liệu việc trừ $b(s_t)$ có làm sai lệch (bias) gradient không? $\Rightarrow$ KHÔNG (unbiased).