ANN Basics: Understanding Artificial Neural Networks & Perceptron

Mục tiêu của bài viết này là nhằm cung cấp cho bạn đọc kiến thức cơ sở về mạng neuron nhân tạo (Artificial Neural Network - ANN). Đối với bài viết cơ sở tri thức này, mình sẽ dùng ANN để xử lý bài toán phân loại (classification).

Mục tiêu của bài toán Classification (Phân loại)

Trong machine learning, Classification là bài toán dự đoán một "nhãn" (label) hoặc một "lớp" (class) rời rạc cho một đầu vào dữ liệu cụ thể.

Bản chất của bài toán

Mục tiêu cốt lõi của ANN trong phân loại là tìm ra một Hàm xấp xỉ $f(x)$ sao cho với mỗi đầu vào $x$ , giá trị đầu ra $y = f(x)$ khớp nhất với nhãn thực tế.

Input ( $x$ ): Một vector đặc trưng (ví dụ: tập hợp các điểm ảnh, hoặc các chỉ số tài chính của một khách hàng).
Output ( $y$ ): Một giá trị xác suất hoặc chỉ số lớp (ví dụ: 0 cho "Sạch", 1 cho "Spam").

Decision Boundary (Đường biên quyết định)

ANN cố gắng học cách vẽ ra các đường biên để phân chia không gian dữ liệu.

Nếu dữ liệu có thể tách biệt bằng một đường thẳng, ta gọi là Linearly Separable.
Nếu dữ liệu phức tạp (như hình xoắn ốc hoặc chồng lấn), ANN cần các lớp ẩn để tạo ra đường biên cong (phi tuyến).

Perceptron - Viên gạch nền móng của ANN

Perceptron là mô hình mạng nơ-ron đơn giản nhất, được Frank Rosenblatt giới thiệu vào năm 1958. Nó mô phỏng cách một nơ-ron sinh học tiếp nhận tín hiệu và quyết định có "kích hoạt" hay không.

Kiến trúc của Perceptron

Một Perceptron bao gồm 4 thành phần chính:

Dữ liệu đầu vào ( $x_1, x_2, ..., x_n$ ): Các đặc trưng của dữ liệu.
Trọng số ( $w_1, w_2, ..., w_n$ ): Thể hiện mức độ quan trọng của từng đặc trưng.
Độ lệch (Bias - $b$ ): Cho phép dịch chuyển đường quyết định lên xuống, giúp mô hình linh hoạt hơn.
Hàm kích hoạt (Activation Function): Quyết định đầu ra cuối cùng.

Cơ chế Feed Forward (Lan truyền tiến)

Quá trình này là quá trình "chuyển hóa" thông tin đầu vào để thành thông tin quyết định (phân loại) ở đầu ra, gồm hai bước tính toán:

Bước 1: Tính tổng hàm truyền (Linear Sum)

z = \sum_{i=1}^{n} w_i x_i + b

Nếu xem $x_1,x_2, \dots,x_n$ như một vector $\mathbf x$ , và $w_1,w_2, \dots,w_n$ như vector $\mathbf w$ , ta đơn giản hóa công thức lại thành: $z=\mathbf w^T \mathbf x+b$ . Đây thực chất có dạng một đường thẳng ( $y=ax+b$ ) chia cắt không gian thành 2 miền âm và dương.

Bước 2: Áp dụng hàm kích hoạt

Từ "đường thẳng" $\mathbf w^T \mathbf x+b$ ở bước 1, mặt phẳng sẽ được chia làm 2 miền, miền các điểm làm cho $z=\mathbf w^T \mathbf x+b \ge 0$ và một miền $z=\mathbf w^T \mathbf x+b \lt 0$ . Trong Perceptron cổ điển, người ta dùng hàm bước (Step Function) để biểu diễn:

y = \begin{cases} 1 & \text{nếu } z \geq 0 \\ 0 & \text{nếu } z < 0 \end{cases}

Tuy nhiên, loại hàm bước này có nhược điểm chí tử: nó "quá cứng nhắc" (chỉ có 0 hoặc 1) và quan trọng nhất là không có đạo hàm hữu ích để dùng cho thuật toán Lan truyền ngược (Backpropagation sẽ nói ngay mục sau). Để mạng nơ-ron có thể học được các cấu trúc dữ liệu phức tạp, chúng ta thay thế Hàm Bước (Step Function) bằng các hàm kích hoạt phi tuyến "mềm" hơn:

Hàm Sigmoid: Đây là hàm kích hoạt kinh điển trong các bài toán Classification nhị phân.
- Công thức: $\displaystyle f(z) = \frac{1}{1 + e^{-z}}$
- Đặc điểm: Nén mọi giá trị đầu vào về khoảng $(0, 1)$ , có thể được hiểu là xác suất (ví dụ: 0.8 tương đương 80% khả năng là ảnh con mèo).
Hàm ReLU (Rectified Linear Unit)
Hiện nay, ReLU là hàm phổ biến nhất trong các mạng nơ-ron sâu (Deep Learning).
- Công thức: $f(z) = \max(0, z)$
- Đặc điểm: Hàm này cực kỳ đơn giản về tính toán và giúp vượt qua hiện tượng "triệt tiêu đạo hàm" (vanishing gradient) mà Sigmoid hay gặp phải.

Cơ chế Back Propagation (Lan truyền ngược)

Đối với mỗi thông tin đầu vào $x_i$ , đi cùng với nó sẽ có một thông tin trọng số $w_i$ để đánh giá tầm quan trọng của $x_i$ . Quá trình "học" thực chất là quá trình căn chỉnh các giá trị $w_i$ để sao cho đánh giá chính xác nhất tầm quan trọng của đầu vào $x_i$ . Như vậy, thực chất là ta cần giải một bài toán tối ưu toán học đơn giản:

Mô hình hóa: Perceptron là một hàm số đa biến $f(\mathbf{x}, \mathbf{w}, b) = \text{activation}(\mathbf{w}^T\mathbf{x} + b)$ . Nhiệm vụ của nó là ánh xạ đầu vào $\mathbf{x}$ thành một giá trị dự báo $\hat{y}$ .
Đo lường sai lệch (Loss Function): Với tập dữ liệu đã đánh nhãn $(\mathbf{x}, y)$ , chúng ta cần biết hàm số trên "tệ" đến mức nào. Ta sử dụng các hàm mất mát Mean Squared Error (MSE): $\displaystyle L = \frac{1}{2}(y - \hat{y})^2$ với $y$ là nhãn thực tế và $\hat{y}$ là gia trị mạng dự đoán.
Định nghĩa Hàm mất mát trung bình (thường gọi là Cost Function $J(\mathbf{w})$ ) trên tập dữ liệu có $n$ mẫu $\displaystyle J(\mathbf{w}, b) = \frac{1}{n} \sum_{i=1}^{n} L(\hat{y}^{(i)}, y^{(i)}) = \frac{1}{2n} \sum_{i=1}^{n} (\hat{y}^{(i)} - y^{(i)})^2$ . Trong đó $y^{(i)}$ là nhãn thực tế và $\hat{y}^{(i)}$ là giá trị dự đoán của điểm dữ liệu thứ $i$ .

Mục tiêu của chúng ta là tìm bộ trọng số $\mathbf{w}$ sao cho hàm mất mát trung bình $J(\mathbf{w})$ đạt giá trị nhỏ nhất (Global Minimum). Theo lý thuyết giải tích, để tìm cực trị của một hàm số, ta chỉ cần lấy đạo hàm và giải phương trình bằng 0:

\nabla_{\mathbf{w}} J(\mathbf{w}) = 0

Nếu giải được, ta có ngay kết quả tối ưu tuyệt đối chỉ trong một bước tính toán. Mặc dù lý thuyết là vậy, nhưng đối với mạng Perceptron (khi dùng hàm phi tuyến) và đặc biệt là mạng đa tầng (MLP), việc giải phương trình $\nabla J = 0$ trở nên bất khả thi vì:

Tính phi tuyến (Non-linearity): Sự xuất hiện của các hàm kích hoạt như Sigmoid, ReLU khiến phương trình đạo hàm trở thành phương trình phi tuyến phức tạp, không có công thức nghiệm tổng quát (Closed-form solution).
Số lượng tham số khổng lồ: Trong các mạng ANN thực tế, $\mathbf{w}$ có thể chứa hàng triệu biến số. Việc nghịch đảo ma trận hoặc giải hệ phương trình hàng triệu ẩn là cực kỳ tốn kém về tài nguyên tính toán ( $O(n^3)$ ).
Điểm yên ngựa và cực tiểu địa phương: Hàm $J$ trong Deep Learning thường không lồi (Non-convex), có rất nhiều điểm mà đạo hàm bằng 0 nhưng không phải là điểm thấp nhất.

Gradient Descent: Chiến thuật "Dò đường trong bóng tối"

Vì không thể "nhìn một phát thấy ngay" điểm đáy thung lũng (giải phương trình), chúng ta chọn cách tiếp cận lặp (Iterative) bằng Gradient:

Gradient là gì? Nó là vector chứa các đạo hàm riêng, chỉ hướng dốc nhất đi lên của hàm số tại điểm hiện tại.
Chiến thuật: Nếu không giải được điểm đáy, ta sẽ đi từng bước nhỏ ngược hướng với Gradient. Mỗi bước đi, ta lại tính lại độ dốc mới và điều chỉnh hướng đi.
$\mathbf{w}_{next} = \mathbf{w}_{current} - \eta \cdot \nabla J(\mathbf{w})$
Trong đó $\eta$ (Learning Rate) là độ lớn của bước chân.

Gradient Descent không cho ta đáp án ngay lập tức như giải phương trình đạo hàm bằng 0, nhưng nó là một thuật toán xấp xỉ cực kỳ hiệu quả, có thể xử lý được các hàm số phi tuyến phức tạp và dữ liệu quy mô lớn mà các phương pháp giải tích "đầu hàng".

Demo - Perceptron

Mạng đa tầng (Multi-Layer Perceptron - MLP)

Tại sao Perceptron đơn tầng là chưa đủ?

Perceptron đơn giản (single-layer) chỉ có thể phân loại dữ liệu tuyến tính – nghĩa là các nhóm dữ liệu phải có thể tách biệt bằng một đường thẳng (trong 2D) hoặc một siêu phẳng (trong không gian cao chiều hơn).

Ví dụ kinh điển minh họa hạn chế này là bài toán XOR (cổng logic XOR): Với các điểm dữ liệu $(0,0) \to 0, (1,1) \to 0$ và $(1,0) \to 1, (0,1) \to 1$ , ta không bao giờ có thể vẽ một đường thẳng duy nhất để chia tách hai nhóm này.

Giải pháp: Ta cần uốn cong không gian đặc trưng (feature space) để tạo ra ranh giới phân loại phi tuyến (non-linear). Cách duy nhất là xếp chồng nhiều lớp nơ-ron lên nhau và sử dụng hàm kích hoạt phi tuyến (như ReLU, Sigmoid, Tanh). Đó chính là ý tưởng cốt lõi của Multi-Layer Perceptron (MLP).

Kiến trúc mạng đa tầng (Fully Connected)

Một mạng MLP điển hình gồm ba loại lớp:

Input Layer: Nhận dữ liệu đầu vào (các đặc trưng của mẫu). Không có tính toán, chỉ truyền thẳng.
Hidden Layers (các lớp ẩn): Mỗi lớp ẩn trích xuất đặc trưng phức tạp hơn từ lớp trước. Số lớp ẩn và số nơ-ron trong mỗi lớp là siêu tham số (hyperparameters) mà chúng ta cần điều chỉnh.
Output Layer: Đưa ra kết quả cuối cùng.
- Với bài toán hồi quy: thường 1 nơ-ron (hoặc không activation).
- Với phân loại: số nơ-ron bằng số lớp, thường dùng Softmax để ra xác suất.

Trong MLP fully connected (kết nối đầy đủ – phổ biến nhất), mọi nơ-ron ở lớp trước kết nối với mọi nơ-ron ở lớp sau.

Cơ chế Feed Forward:

Trong thực tế, ta không tính toán cho từng nơ-ron riêng lẻ mà tính toán cho toàn bộ một lớp cùng một lúc.

Quy ước ký hiệu:

$L$ : Tổng số lớp trong mạng.
$n_l$ : Số lượng nơ-ron trong lớp $l$ .
$\mathbf{a}^{[l]}$ : Vector đầu ra của lớp $l$ , kích thước $(n_l \times 1)$ . (Lưu ý $\mathbf{a}^{[0]} = \mathbf{x}$ là input).
$\mathbf{W}^{[l]}$ : Ma trận trọng số nối từ lớp $l-1$ sang lớp $l$ . Kích thước là $(n_l \times n_{l-1})$ .
$\mathbf{b}^{[l]}$ : Vector bias của lớp $l$ , kích thước $(n_l \times 1)$ .

Với mỗi lớp $l$ từ $1 \to L$ :

Tính tổng tuyến tính (Pre-activation):

\mathbf{z}^{[l]} = \mathbf{W}^{[l]} \mathbf{a}^{[l-1]} + \mathbf{b}^{[l]}

Tính giá trị kích hoạt (Activation):

\mathbf{a}^{[l]} = \sigma(\mathbf{z}^{[l]})

Trong đó $\sigma$ là hàm phi tuyến như ReLU hoặc Sigmoid được áp dụng cho từng phần tử.

Tại sao lại dùng Ma trận?

Thay vì tính từng nơ-ron riêng lẻ, ta dùng phép nhân ma trận để tính toàn bộ lớp cùng lúc. Việc này giúp tính toán cực kỳ hiệu quả trên GPU/TPU.

Cơ chế Backpropagation:

Mục tiêu của Backpropagation là tính gradient (đạo hàm riêng phần) của hàm mất mát $J$ theo tất cả trọng số $\mathbf{W}^{[l]}$ và bias $\mathbf{b}^{[l]}$ của mọi lớp, để chúng ta biết nên điều chỉnh chúng theo hướng nào và bao nhiêu.

Hàm mất mát $J$ chỉ phụ thuộc trực tiếp vào output của lớp cuối cùng $\mathbf{a}^{[L]}$ . Nhưng $\mathbf{a}^{[L]}$ lại phụ thuộc vào $\mathbf{z}^{[L]}, \mathbf{z}^{[L]}$ phụ thuộc vào $\mathbf{a}^{[L-1]}$ , $\mathbf{a}^{[L-1]}$ phụ thuộc vào $\mathbf{z}^{[L-1]}$ , … và cứ thế ngược về lớp đầu tiên. Do đó, để tính đạo hàm của $J$ theo một trọng số $w$ (hoặc bias) nằm ở bất kỳ lớp nào, ta phải nhân chuỗi tất cả các đạo hàm liên quan theo quy tắc dây chuyền (Chain Rule):

\frac{\partial J}{\partial w} = \frac{\partial J}{\partial \mathbf{a}^{[L]}} \cdot \frac{\partial \mathbf{a}^{[L]}}{\partial \mathbf{z}^{[L]}} \cdot \frac{\partial \mathbf{z}^{[L]}}{\partial \mathbf{a}^{[L-1]}} \cdot \frac{\partial \mathbf{a}^{[L-1]}}{\partial \mathbf{z}^{[L-1]}} \cdots \frac{\partial \mathbf{a}^{[k+1]}}{\partial \mathbf{z}^{[k+1]}} \cdot \frac{\partial \mathbf{z}^{[k+1]}}{\partial \mathbf{a}^{[k]}} \cdot \frac{\partial \mathbf{a}^{[k]}}{\partial \mathbf{z}^{[k]}} \cdot \frac{\partial \mathbf{z}^{[k]}}{\partial w}

Để thuận tiện cho việc tính toán, ta định nghĩa sai số (error term) $\displaystyle \delta^{[l]} = \frac{\partial J}{\partial \mathbf{z}^{[l]}}$ . Đây là một mẹo cực kỳ thông minh:

$\mathbf{z}^{[l]}$ chính là giá trị trước khi kích hoạt (pre-activation): $\mathbf{z}^{[l]} = \mathbf{W}^{[l]} \mathbf{a}^{[l-1]} + \mathbf{b}^{[l]}$ .
Sau khi tính $\delta^{[l]}$ , ta có thể tính ngay gradient của trọng số và bias chỉ bằng vài phép nhân ma trận đơn giản, mà không cần viết lại toàn bộ chuỗi đạo hàm dài dòng mỗi lần.
$\delta^{[l]}$ mang ý nghĩa vật lý: “Lỗi của lớp $l$ muốn thay đổi $\mathbf{z}^{[l]}$ theo hướng nào để giảm tổng loss”.

Nói cách khác, $\delta^{[l]}$ là “cầu nối” giữa hàm mất mát và toàn bộ các trọng số/bias của lớp đó. Nhờ định nghĩa này, công thức cập nhật trọng số trở nên rất gọn và dễ triển khai.

Các bước tính Back Propagation bây giờ có thể "bẻ ra" thành nhiều phần đơn lẻ như sau:

Bước 1: Tính sai số của lớp cuối (output layer), giả sử hàm mất mát là MSE (hoặc Cross-Entropy), ta có:

\delta^{[L]} = \frac{\partial J}{\partial \mathbf{a}^{[L]}} \odot \sigma'(\mathbf{z}^{[L]})

Ở đây, $\odot$ là nhân từng phần tử của hai vector.

Bước 2: Lan truyền sai số ngược về các lớp trước với mỗi lớp $l: L-1 \to 1$

\delta^{[l]} = \left( (\mathbf{W}^{[l+1]})^T \delta^{[l+1]} \right) \odot \sigma'(\mathbf{z}^{[l]})

Công thức này cho thấy lỗi được “phân phối ngược” từ lớp sau về lớp trước, nhân với đạo hàm của hàm kích hoạt để biết mức độ ảnh hưởng.

Bước 3: Tính gradient cho trọng số và bias

\frac{\partial J}{\partial \mathbf{W}^{[l]}} = \delta^{[l]} \cdot (\mathbf{a}^{[l-1]})^T \\ \frac{\partial J}{\partial \mathbf{b}^{[l]}} = \delta^{[l]}

Bước 4: Sau khi có Gradient cho toàn bộ các lớp, ta thực hiện cập nhật trọng số (Gradient Descent), với $\eta$ là learning rate:

\mathbf{W}^{[l]} = \mathbf{W}^{[l]} - \eta \frac{\partial J}{\partial \mathbf{W}^{[l]}} \\ \mathbf{b}^{[l]} = \mathbf{b}^{[l]} - \eta \frac{\partial J}{\partial \mathbf{b}^{[l]}}

Demo - MLP

Demo này cho phép bạn viết 1 con số từ 0 - 9 rồi máy sẽ tự đoán con số viết tay của bạn là số mấy. Ban đầu máy có thể sẽ dự đoán sai, tuy nhiên nếu bạn cố gắng train nhiều lần (phần dưới) máy sẽ ngày một thông minh hơn và dự đoán tốt hơn.

Mạng neural được thiết kế bằng cách lấy thông tin grayscale từ tất cả 8x8 điểm để đưa vào training, nghĩa là lớp input sẽ có 64 neuron, một mạng ẩn hidden có 32 neuron và output có 10 neuron chỉ định dự đoán, mỗi neuron đại diện cho tỷ lệ phần trăm cho mối dự đoán từ 0 đến 9. Bạn có quyền thay đổi số neuron trong mạng ẩn để xem hiệu quả của training.

Lời bàn: Learning rate và Hyperparameters – Những yếu tố quyết định thành bại

Trong thực tế, mạng neuron không tự động học tốt chỉ vì có công thức đúng. Hiệu suất thực tế phụ thuộc rất lớn vào việc chọn siêu tham số (hyperparameters) phù hợp.

1. Learning rate (η) – Tốc độ học – là siêu tham số quan trọng nhất

Quá nhỏ (ví dụ $\eta = 0.0001$ ): Mạng học rất chậm, có thể mất hàng nghìn epoch mới hội tụ, thậm chí kẹt ở điểm yên ngựa (saddle point) hoặc cực tiểu cục bộ.
Quá lớn (ví dụ $\eta = 1.0$ ): Gradient descent "nhảy cóc" qua điểm tối ưu, loss dao động mạnh hoặc thậm chí diverge (loss tăng vọt lên vô cực).
Giá trị hợp lý: Thường bắt đầu từ 0.001 đến 0.1, tùy bài toán. Với ReLU và Adam optimizer, $\eta \approx 0.001$ thường ổn.

Hiện nay, hầu hết mọi người không dùng learning rate cố định nữa, mà dùng các optimizer thông minh như:

Adam (Adaptive Moment Estimation): tự động điều chỉnh learning rate cho từng tham số.
RMSprop, AdamW, Lion… – giúp hội tụ nhanh và ổn định hơn.

2. Các hyperparameters khác cần chú ý

Số lớp ẩn và số neuron mỗi lớp: Nhiều lớp/neuron → mạng mạnh hơn, nhưng dễ overfitting và tốn tài nguyên.
Batch size: Batch nhỏ (32–128) thường giúp generalize tốt hơn, nhưng chậm hơn.
Activation function: ReLU là lựa chọn mặc định hiện nay, nhưng có thể thử Leaky ReLU, GELU nếu gặp vấn đề dying ReLU.
Regularization: Dropout, L2 regularization (weight decay) để tránh overfitting.
Epochs và Early Stopping: Dừng huấn luyện khi validation loss không còn giảm.

Tóm lại: Công thức toán học chỉ là nền tảng. Khả năng điều chỉnh hyperparameters mới là kỹ năng thực sự phân biệt người mới và người có kinh nghiệm trong machine learning.

Cơ bản về ANN - Artificial Neural Network