Aritificial Neural Network - A statistical view for regression problem

Bước ra khỏi tư duy "Khớp hàm số"

Trong toán học phổ thông, chúng ta thường làm quen với khái niệm hàm số $y = f(x)$ như một quy tắc xác định duy nhất: với mỗi đầu vào $x$ , ta luôn thu được một đầu ra $y$ cố định. Tuy nhiên, khi bước vào thế giới dữ liệu thực (Real-world data), quy tắc này hoàn toàn bị phá vỡ.

Hãy tưởng tượng bạn đang xây dựng một mô hình ANN để dự báo giá nhà. Hai căn nhà có cùng diện tích, cùng vị trí, cùng số phòng (chung đầu vào $x$ ) nhưng giá bán thực tế ( $y$ ) vẫn có sự chênh lệch đáng kể. Tại sao? Bởi vì luôn có những yếu tố mà mô hình không thể quan sát hết (noise), hoặc bản thân quy trình thu thập dữ liệu tồn tại sai số.

Nếu chúng ta ép mạng ANN phải "khớp" (fit) chính xác từng điểm dữ liệu, chúng ta đang vô tình bắt nó học cả những sai số ngẫu nhiên đó – dẫn đến hiện tượng Overfitting.

Thay đổi lăng kính: Thay vì coi ANN là một "cỗ máy tính toán giá trị", hãy coi nó là một bộ ước lượng tham số (Parameter Estimator). Thay vì dự đoán $y$ , mạng ANN sẽ dự đoán các đặc trưng của một phân phối xác suất $p(y|x)$ . Ở góc nhìn này, chúng ta không chỉ đi tìm một con số, mà chúng ta đi tìm "vùng không gian" mà giá trị thực có khả năng rơi vào cao nhất.

Mô hình hóa bài toán dưới góc nhìn Xác suất

Để chuyển đổi bài toán Hồi quy (Regression) sang ngôn ngữ xác suất, chúng ta cần đặt ra các giả định về bản chất của dữ liệu.

1. Giả định về nhiễu Gauss (Gaussian Noise)

Chúng ta giả định rằng mối quan hệ giữa đầu vào $x$ và mục tiêu $y$ bị chi phối bởi một hàm số lý tưởng $f(x; \mathbf{w})$ nhưng bị che phủ bởi một thành phần nhiễu $\epsilon$ :

y = f(x; \mathbf{w}) + \epsilon

Trong đó, $\epsilon$ được gọi là nhiễu trắng và tuân theo Phân phối chuẩn (Gaussian Distribution) với kỳ vọng bằng $0$ và phương sai $\sigma^2$ :

\epsilon \sim \mathcal{N}(0, \sigma^2)

Tại sao lại là Phân phối chuẩn? Theo Định lý giới hạn trung tâm (Central Limit Theorem), tổng của nhiều tác động nhiễu nhỏ, độc lập khác nhau thường sẽ hội tụ về phân phối chuẩn. Đây là giả định thực tế và mạnh mẽ nhất trong thống kê.

Từ giả định trên, ta có thể suy ra biến mục tiêu $y$ cũng là một biến ngẫu nhiên tuân theo phân phối chuẩn, nhưng có tâm (kỳ vọng) dịch chuyển về phía đầu ra của mạng ANN:

p(y | x, \mathbf{w}) = \mathcal{N}(y | f(x; \mathbf{w}), \sigma^2)

Điều này có nghĩa là: Với mỗi giá trị $x$ , xác suất để thu được $y$ sẽ cao nhất tại điểm $f(x; \mathbf{w})$ và giảm dần khi đi xa khỏi điểm đó theo hình chuông.

2. Ý nghĩa của Feedforward trong xác suất

Trong cấu trúc mạng ANN, quá trình Feedforward (Lan truyền xuôi) thường được hiểu là việc nhân ma trận và đi qua hàm kích hoạt. Nhưng dưới góc nhìn xác suất, đây là quá trình chiết tách đặc trưng để ước lượng tham số phân phối.

Các tầng ẩn (Hidden Layers): Đóng vai trò như các bộ lọc, biến đổi dữ liệu thô $x$ thành các không gian đặc trưng (feature space) mang tính đại diện cao.
Tầng đầu ra (Output Layer): Trong bài toán Regression truyền thống, tầng này thường chỉ có 1 node duy nhất. Node này không đại diện cho giá trị $y$ cuối cùng, mà nó đại diện cho kỳ vọng $\mu$ của phân phối $p(y|x)$ .

Nói cách khác, mạng ANN đang thực hiện một nhiệm vụ: Dự đoán xem "trọng tâm" của đám mây xác suất nằm ở đâu dựa trên những gì nó đã quan sát được từ $x$ .

Tại sao chúng ta dùng MSE?

Trong học máy, chúng ta thường chấp nhận hàm mất mát Mean Squared Error (MSE) như một tiêu chuẩn mặc định cho bài toán hồi quy. Tuy nhiên, dưới góc độ xác suất, MSE không phải là một công thức ngẫu nhiên; nó là hệ quả trực tiếp của việc Cực đại hóa hàm hợp lý (Maximum Likelihood Estimation - MLE) dưới giả định nhiễu Gauss.

1. Thiết lập hàm Hợp lý (Likelihood Function)

Giả sử chúng ta có một tập dữ liệu huấn luyện $\mathcal{D} = \{(x_1, y_1), (x_2, y_2), ..., (x_n, y_n)\}$ . Giả định rằng các mẫu dữ liệu này là độc lập và cùng phân phối (i.i.d).

Mục tiêu của chúng ta là tìm bộ trọng số $\mathbf{w}$ sao cho xác suất xảy ra của toàn bộ tập dữ liệu thực tế là cao nhất. Xác suất này được biểu diễn qua hàm Hợp lý $L(\mathbf{w})$ :

L(\mathbf{w}) = p(y_1, y_2, ..., y_n | x_1, x_2, ..., x_n, \mathbf{w})

Vì các mẫu là độc lập, xác suất của một tích bằng tích các xác suất:

L(\mathbf{w}) = \prod_{i=1}^{n} p(y_i | x_i, \mathbf{w})

Thay phân phối chuẩn $\mathcal{N}(y | f(x_i; \mathbf{w}), \sigma^2)$ mà chúng ta đã thiết lập ở phần II vào, ta có:

L(\mathbf{w}) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left( -\frac{(y_i - f(x_i; \mathbf{w}))^2}{2\sigma^2} \right)

2. Từ Likelihood đến Log-Likelihood

Việc tối ưu hóa một tích các hàm mũ là rất khó khăn về mặt tính toán (dễ gây ra lỗi tràn số dưới - underflow). Do đó, chúng ta áp dụng hàm $\ln$ (logarit tự nhiên) vào cả hai vế. Vì $\ln$ là hàm đồng biến, việc tìm $\mathbf{w}$ để cực đại hóa $L(\mathbf{w})$ cũng tương đương với việc cực đại hóa $\ln L(\mathbf{w})$ :

\ell(\mathbf{w}) = \ln L(\mathbf{w}) = \sum_{i=1}^{n} \ln \left[ \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left( -\frac{(y_i - f(x_i; \mathbf{w}))^2}{2\sigma^2} \right) \right]

Sử dụng tính chất $\ln(a \cdot b) = \ln a + \ln b$ và $\ln(e^u) = u$ , ta khai triển được:

\ell(\mathbf{w}) = \sum_{i=1}^{n} \left[ \underbrace{\ln \left( \frac{1}{\sqrt{2\pi\sigma^2}} \right)}_{\text{constant}} - \frac{(y_i - f(x_i; \mathbf{w}))^2}{2\sigma^2} \right]

3. Cầu nối MLE $\rightarrow$ MSE

Để tìm $\mathbf{w}$ tối ưu, chúng ta thực hiện bài toán cực đại hóa $\ell(\mathbf{w})$ . Tuy nhiên, trong Deep Learning, chúng ta thường làm việc với bài toán tối thiểu hóa hàm mất mát (Loss function). Vì vậy, ta đặt hàm mất mát là Negative Log-Likelihood (NLL):

\text{Loss}(\mathbf{w}) = -\ell(\mathbf{w}) = \sum_{i=1}^{n} \left[ \frac{(y_i - f(x_i; \mathbf{w}))^2}{2\sigma^2} - \text{const} \right]

Khi tối ưu hóa theo $\mathbf{w}$ , các thành phần hằng số và hệ số mẫu số $2\sigma^2$ (giả định phương sai không đổi) không làm thay đổi vị trí của điểm cực tiểu. Do đó, bài toán thu gọn thành:

\mathbf{w}^* = \arg \min_{\mathbf{w}} \sum_{i=1}^{n} (y_i - f(x_i; \mathbf{w}))^2

Đây chính là tổng bình phương các sai số. Nếu ta chia cho $n$ để lấy giá trị trung bình, ta thu được công thức MSE kinh điển:

MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - f(x_i; \mathbf{w}))^2

Kết luận rút ra: Khi bạn chọn MSE làm hàm mất mát cho mạng ANN, bạn không chỉ đang thực hiện một phép tính hình học (đo khoảng cách). Về mặt bản chất, bạn đang thực hiện một phép suy diễn thống kê mạnh mẽ: Bạn đang đi tìm bộ trọng số có khả năng giải thích dữ liệu cao nhất dưới giả định rằng thế giới này bị nhiễu bởi phân phối Gauss.

Huấn luyện mạng

Sau khi đã xác định được mục tiêu là tối thiểu hóa hàm thất thoát (Loss function), câu hỏi tiếp theo là: Làm thế nào để mạng ANN "học" được bộ trọng số đó, và làm sao để kiểm soát nó không đi quá xa khỏi thực tế? Nếu toán học MLE là "kim chỉ nam", thì Feedforward và Backpropagation chính là "đôi chân" giúp mạng ANN di chuyển đến đích.

1. Feedforward: Quá trình lan truyền tham số

Feedforward không chỉ là việc nhân ma trận, mà là quá trình biến đổi dữ liệu thô qua nhiều cấp độ trừu tượng để ước lượng tham số của phân phối $p(y|x)$ .

Giả sử mạng có $L$ lớp. Tại mỗi lớp $l$ :

Kết hợp tuyến tính: Các đặc trưng từ lớp trước được tổng hợp: $z^{(l)} = W^{(l)}a^{(l-1)} + b^{(l)}$ . Ở góc nhìn xác suất, đây là cách mạng tạo ra các tổ hợp các biến ngẫu nhiên.
Kích hoạt phi tuyến: $a^{(l)} = \sigma(z^{(l)})$ . Hàm kích hoạt (như ReLU hay Sigmoid) đóng vai trò bóp méo không gian để mô hình hóa các mối quan hệ phức tạp, không thẳng hàng trong dữ liệu.
Lớp đầu ra (Output Layer): Tại lớp cuối cùng $L$ , ta thu được giá trị $f(x; \mathbf{w})$ . Như đã chứng minh ở phần III, giá trị này chính là $\mu$ (kỳ vọng) của phân phối Gauss mà chúng ta đang tìm kiếm.

2. Backpropagation: Cơ chế "sửa lỗi" theo độ dốc xác suất

Backpropagation là thuật toán cốt lõi để tìm ra bộ trọng số $\mathbf{w}$ tối ưu nhất. Thay vì thử sai ngẫu nhiên, mạng sử dụng đạo hàm để biết cần điều chỉnh trọng số theo hướng nào.

Quy trình diễn ra theo 3 bước:

Bước 1: Tính toán sai số (The Error Signal):
Dựa trên hàm mất mát $J(\mathbf{w})$ (chính là NLL hay MSE), ta tính toán sự sai khác giữa dự đoán $\mu(x)$ và giá trị thực $y$ .
Bước 2: Lan truyền ngược sai số:
Sử dụng Quy tắc chuỗi (Chain Rule), sai số từ lớp đầu ra được "phân phối" ngược lại từng node ở các lớp trước đó. Chúng ta tính toán xem mỗi trọng số $w_{ij}^{(l)}$ đã "đóng góp" bao nhiêu vào lỗi tổng thể:
$\frac{\partial J}{\partial w_{ij}^{(l)}} = \frac{\partial J}{\partial z_{i}^{(l)}} \cdot \frac{\partial z_{i}^{(l)}}{\partial w_{ij}^{(l)}}$
Bước 3: Cập nhật trọng số (Gradient Descent):
Sau khi biết hướng làm giảm sai số (ngược chiều Gradient), các trọng số được cập nhật:
$\mathbf{w}_{new} = \mathbf{w}_{old} - \eta \cdot \nabla_{\mathbf{w}} J$
(Trong đó $\eta$ là Learning Rate - tốc độ học).

3. Regularization: Đưa "niềm tin" vào mô hình (Bayesian Prior)

Một vấn đề lớn của MLE là nó có xu hướng "học vẹt" (Overfitting) nếu dữ liệu quá ít hoặc mô hình quá phức tạp. Để khắc phục, chúng ta sử dụng Regularization (Điều chuẩn). Trong xác suất, đây chính là việc chuyển từ MLE sang MAP (Maximum A Posteriori).

Thay vì chỉ tối ưu hóa $p(\mathcal{D} | \mathbf{w})$ (Likelihood), chúng ta tối ưu hóa xác suất của trọng số sau khi đã quan sát dữ liệu (Bayesian):

p(\mathbf{w} | \mathcal{D}) \propto p(\mathcal{D} | \mathbf{w}) \cdot p(\mathbf{w})

Trong đó, $p(\mathbf{w})$ là Xác suất tiên nghiệm (Prior) — niềm tin của chúng ta về bộ trọng số trước khi nhìn thấy bất kỳ dữ liệu nào.

L2 Regularization: Giả định trọng số tuân theo phân phối chuẩn Gaussian

Chúng ta giả định rằng mỗi thành phần trọng số $w_j$ trong bộ trọng số $\mathbf{w}$ là độc lập và tuân theo phân phối chuẩn với kỳ vọng bằng $0$ (nghĩa là chúng ta tin rằng mặc định các trọng số nên nhỏ và bằng $0$ trừ khi dữ liệu chứng minh ngược lại) và phương sai $\sigma_w^2$ :

w_j \sim \mathcal{N}(0, \sigma_w^2)

Hàm mật độ xác suất cho toàn bộ vector trọng số $\mathbf{w}$ (gồm $k$ phần tử) sẽ là tích của từng thành phần:

p(\mathbf{w}) = \prod_{j=1}^{k} \frac{1}{\sqrt{2\pi\sigma_w^2}} \exp \left( -\frac{w_j^2}{2\sigma_w^2} \right)

Sử dụng tính chất của hàm mũ để gộp tích thành tổng:

p(\mathbf{w}) = \left( \frac{1}{\sqrt{2\pi\sigma_w^2}} \right)^k \exp \left( -\sum_{j=1}^{k} \frac{w_j^2}{2\sigma_w^2} \right)

Thực hiện phép tính Log-Posterior

Để tối ưu hóa, chúng ta lấy logarit tự nhiên của xác suất hậu nghiệm. Ta tập trung vào phần Prior trong biểu thức $\ln p(\mathbf{w} | \mathcal{D}) = \ln p(\mathcal{D} | \mathbf{w}) + \ln p(\mathbf{w})$ :

\ln p(\mathbf{w}) = \ln \left[ \left( \frac{1}{\sqrt{2\pi\sigma_w^2}} \right)^k \exp \left( -\frac{1}{2\sigma_w^2} \sum_{j=1}^{k} w_j^2 \right) \right]

Áp dụng quy tắc $\ln(A \cdot B) = \ln A + \ln B$ :

\ln p(\mathbf{w}) = \ln \left( \frac{1}{\sqrt{2\pi\sigma_w^2}} \right)^k + \ln \left[ \exp \left( -\frac{1}{2\sigma_w^2} \sum_{j=1}^{k} w_j^2 \right) \right]

Sử dụng tính chất $\ln(e^u) = u$ và nhận định rằng $\sum_{j=1}^{k} w_j^2$ chính là bình phương chuẩn bậc hai của vector $\mathbf{w}$ , ký hiệu là $\|\mathbf{w}\|^2$ :

\ln p(\mathbf{w}) = \underbrace{k \cdot \ln \left( \frac{1}{\sqrt{2\pi\sigma_w^2}} \right)}_{\text{Hằng số không phụ thuộc vào w}} - \frac{1}{2\sigma_w^2} \|\mathbf{w}\|^2

Chuyển sang Negative Log-Likelihood (Hàm mất mát)

Trong các bài toán tối ưu hóa, ta thường tối thiểu hóa giá trị âm của Log-Posterior. Khi đó, phần đóng góp của Prior vào hàm mất mát sẽ là:

- \ln p(\mathbf{w}) = \frac{1}{2\sigma_w^2} \|\mathbf{w}\|^2 + \text{const}

Kết nối với công thức Regularization tổng quát

Khi kết hợp với phần Likelihood (đã chứng minh ở phần III là MSE), hàm mất mát toàn phần $J(\mathbf{w})$ trở thành:

J(\mathbf{w}) = \text{MSE} + \frac{\sigma^2}{\sigma_w^2} \cdot \frac{1}{2n} \|\mathbf{w}\|^2

Nếu ta đặt $\displaystyle \lambda = \frac{\sigma^2}{\sigma_w^2}$ (tỉ lệ giữa phương sai của nhiễu dữ liệu và phương sai của niềm tin tiên nghiệm), ta có công thức chính xác của L2 Regularization:

J(\mathbf{w}) = \text{MSE} + \lambda \|\mathbf{w}\|^2

Ý nghĩa trực quan:

Nếu $\sigma_w^2$ rất nhỏ: Niềm tin của chúng ta rất mạnh rằng trọng số phải bằng $0$ . Điều này dẫn đến $\lambda$ rất lớn, mạng sẽ bị phạt nặng nếu trọng số lệch khỏi $0$ .
Nếu $\sigma_w^2$ rất lớn: Chúng ta "thả lỏng", cho phép trọng số tự do hơn. Điều này dẫn đến $\lambda$ nhỏ, mô hình sẽ phụ thuộc hoàn toàn vào dữ liệu (MLE).

Đúc kết: L2 Regularization thực chất là một "bộ lọc" xác suất, ngăn không cho mô hình gán quá nhiều tầm quan trọng cho bất kỳ một đặc trưng nào, ép mạng ANN phải duy trì một sự "khiêm tốn" nhất định trước dữ liệu.

L1 Regularization: Khi "niềm tin" tuân theo Phân phối Laplace

Nếu L2 giả định trọng số tuân theo phân phối chuẩn (Gaussian), thì L1 Regularization (hay Lasso) lại xuất phát từ một giả định khác: Trọng số $\mathbf{w}$ tuân theo Phân phối Laplace.

Thiết lập giả định cho Prior

Phân phối Laplace có hàm mật độ xác suất nhọn hơn nhiều tại điểm 0 so với phân phối chuẩn. Giả định $w_j \sim \text{Laplace}(0, b)$ , ta có:

p(w_j) = \frac{1}{2b} \exp \left( -\frac{|w_j|}{b} \right)

Trong đó $b$ là tham số tỉ lệ (scale parameter).

Đối với toàn bộ vector trọng số $\mathbf{w}$ :

p(\mathbf{w}) = \prod_{j=1}^{k} \frac{1}{2b} \exp \left( -\frac{|w_j|}{b} \right) = \left( \frac{1}{2b} \right)^k \exp \left( -\frac{1}{b} \sum_{j=1}^{k} |w_j| \right)

Thực hiện phép tính Log-Posterior

Tương tự như cách làm với L2, ta lấy logarit tự nhiên của xác suất tiên nghiệm này:

\ln p(\mathbf{w}) = \ln \left( \frac{1}{2b} \right)^k - \frac{1}{b} \sum_{j=1}^{k} |w_j|

Khi chuyển sang bài toán tối thiểu hóa hàm mất mát (Negative Log-Posterior), phần đóng góp của Prior sẽ là:

- \ln p(\mathbf{w}) = \frac{1}{b} \|\mathbf{w}\|_1 + \text{const}

Trong đó $\|\mathbf{w}\|_1 = \sum |w_j|$ chính là chuẩn bậc một (L1-norm).

Sự khác biệt bản chất:

Việc hiểu dưới góc nhìn xác suất giúp ta giải thích L1 một cách trực quan:

Hình dáng của niềm tin: Phân phối Laplace có một "đỉnh" rất nhọn ngay tại điểm $0$ . Về mặt xác suất, điều này thể hiện một niềm tin cực kỳ mạnh mẽ rằng: Phần lớn các trọng số thực sự nên bằng $0$ .
Cơ chế triệt tiêu: Trong khi đạo hàm của L2 ( $\|\mathbf{w}\|^2$ ) tiến về $0$ khi $w$ nhỏ dần (khiến tốc độ giảm chậm lại và khó chạm mức $0$ ), thì đạo hàm của L1 ( $\|\mathbf{w}\|_1$ ) luôn là một hằng số ( $\pm 1$ ). Điều này tạo ra một "áp lực" không đổi đẩy trọng số về đúng bằng $0$ .

Mở rộng: Khi mạng ANN "biết những gì nó không biết"

Trong các ứng dụng truyền thống, mạng ANN chỉ trả về một con số duy nhất (point estimate). Tuy nhiên, trong các lĩnh vực rủi ro cao như y tế hay xe tự lái, việc biết mô hình đang tự tin hay đang đoán mò còn quan trọng hơn bản thân giá trị dự báo. Góc nhìn xác suất mở ra cánh cửa để chúng ta ước lượng Sự bất định (Uncertainty).

Sự bất định trong bài toán Regression thường được chia làm hai loại:

Aleatoric Uncertainty (Bất định do dữ liệu): Xảy ra khi dữ liệu đầu vào vốn dĩ đã nhiễu hoặc chồng lấn (ví dụ: ảnh bị mờ). Để học được điều này, thay vì chỉ dự đoán $\mu(x)$ , chúng ta thiết kế mạng ANN có hai đầu ra: một cho $\mu(x)$ và một cho phương sai $\sigma^2(x)$ . Khi mạng đối mặt với vùng dữ liệu nhiễu, nó sẽ tự động đẩy $\sigma^2$ lên cao như một tín hiệu cảnh báo.
Epistemic Uncertainty (Bất định do mô hình): Xảy ra khi chúng ta thiếu dữ liệu huấn luyện ở một vùng không gian nào đó. Để xử lý loại này, chúng ta cần đến Bayesian Neural Networks, nơi mà mỗi trọng số $\mathbf{w}$ không phải là một con số mà là một phân phối điểm.

Việc nắm bắt được sự bất định giúp mô hình không chỉ đưa ra dự báo mà còn đưa ra một khoảng tin cậy (Confidence Interval), giúp người dùng đưa ra quyết định an toàn hơn.

Kết luận: Bản chất của sự học là sự suy diễn

Đi từ những giả định đơn giản về nhiễu Gauss đến việc tối ưu hóa hàm Log-Likelihood, chúng ta nhận ra rằng mạng ANN cho bài toán Regression không đơn thuần là một công cụ giải thuật toán. Nó là một thực thể thống kê đang thực hiện phép Suy diễn (Inference).

Tóm lại, những điểm cốt lõi bạn cần nhớ từ góc nhìn này là:

MSE không phải là mặc định: Nó là hệ quả của giả định nhiễu Gauss. Nếu dữ liệu của bạn có nhiễu khác (như nhiễu Laplace), hãy cân nhắc dùng MAE.
Regularization là "Niềm tin": L2 hay L1 không chỉ để chống overfitting, chúng là cách bạn đưa tri thức hoặc kinh nghiệm tiên nghiệm (Prior) vào để định hướng cho mô hình.
ANN là bộ ước lượng tham số: Đừng chỉ nhìn vào kết quả cuối cùng, hãy nhìn vào cách mô hình phân phối xác suất cho các khả năng có thể xảy ra.

Aritificial Neural Network: Bản chất Xác suất phía sau Bài toán Hồi quy

Bước ra khỏi tư duy "Khớp hàm số"

Mô hình hóa bài toán dưới góc nhìn Xác suất

Tại sao chúng ta dùng MSE?

Huấn luyện mạng

L2 Regularization: Giả định trọng số tuân theo phân phối chuẩn Gaussian

Thực hiện phép tính Log-Posterior

Chuyển sang Negative Log-Likelihood (Hàm mất mát)

Kết nối với công thức Regularization tổng quát

Thiết lập giả định cho Prior

Thực hiện phép tính Log-Posterior

Mở rộng: Khi mạng ANN "biết những gì nó không biết"

Kết luận: Bản chất của sự học là sự suy diễn

More from AI & ML

Comments