ReLU - Learning Zone

ReLU (Rectified Linear Unit) to funkcja aktywacji, która działa wyjątkowo prosto: jeśli wartość na wejściu jest ujemna, zwraca zero, a jeśli dodatnia — przepuszcza ją bez zmian. Matematycznie zapiszesz to jako f(x) = max(0, x). Tyle. Żadnych wykładniczych, żadnych ułamków — i właśnie ta banalność sprawiła, że ReLU stała się domyślną aktywacją w warstwach ukrytych głębokich sieci neuronowych.

Jak to działa i po co

W sieci neuronowej każdy neuron liczy ważoną sumę wejść, a potem przepuszcza wynik przez funkcję aktywacji. Aktywacja wprowadza nieliniowość — bez niej cała sieć, choćby miała sto warstw, sprowadzałaby się do jednego mnożenia macierzy. ReLU dorzuca tę nieliniowość niemal za darmo.

Kluczowa zaleta dotyczy uczenia. Starsze funkcje, jak sigmoid czy tanh, mają pochodną bliską zeru na obu końcach — przy propagacji wstecznej gradient się „rozpływa” (problem vanishing gradient) i głębokie warstwy uczą się ślamazarnie. Pochodna ReLU dla dodatnich wartości wynosi po prostu 1, więc gradient przepływa bez tłumienia. Do tego max(0, x) liczy się błyskawicznie, co skraca czas treningu.

Przykład z praktyki

W PyTorchu wstawiasz ją jednym wierszem: nn.ReLU() między warstwami liniowymi, albo funkcyjnie torch.relu(x) w metodzie forward. W Kerasie analogicznie: layers.Dense(128, activation='relu'). Budujesz klasyfikator obrazów na MNIST? Warstwy ukryte dostają ReLU, a dopiero ostatnia softmax albo sigmoid — bo tam potrzebujesz prawdopodobieństw, nie surowych wartości.

Na co uważać

Najczęstsza pułapka to dying ReLU. Jeśli neuron utknie na ujemnych wejściach, jego wyjście to ciągłe zero, gradient też zero — i neuron przestaje się uczyć na dobre. Sprzyja temu za wysoki learning rate albo źle dobrana inicjalizacja wag. Lekarstwa: LeakyReLU (przepuszcza niewielki ujemny sygnał, np. 0.01*x), PReLU czy ELU, a także rozsądny learning rate i inicjalizacja He.

Drugi mit: że ReLU pasuje wszędzie. Na wyjściu sieci regresyjnej obetniesz nią wszystkie ujemne predykcje do zera — rzadko o to chodzi. ReLU to robotnik warstw ukrytych, nie uniwersalna wtyczka do każdego miejsca.

Pojęcia powiązane: funkcja aktywacji, sigmoid, tanh, softmax, LeakyReLU, ELU, GELU, vanishing gradient, backpropagation, sieci neuronowe, gradient descent.