Waga (ang. weight) to liczbowa wartość przypisana połączeniu między dwoma neuronami w sieci neuronowej. Mówi, jak mocno sygnał z jednego neuronu wpływa na drugi: duża dodatnia waga wzmacnia sygnał, ujemna go odwraca, a wartość bliska zeru sprawia, że dane połączenie praktycznie nic nie znaczy. To właśnie w wagach (a nie w samym kodzie modelu) siedzi cała „wiedza” wytrenowanej sieci.
Jak to działa
Pojedynczy neuron robi prostą rzecz: bierze każde wejście, mnoży je przez odpowiadającą mu wagę, sumuje wszystko razem, dodaje bias i przepuszcza wynik przez funkcję aktywacji. W zapisie to po prostu z = w1*x1 + w2*x2 + ... + b. Na starcie wagi są losowe, więc sieć zgaduje. Podczas treningu algorytm backpropagation liczy, jak bardzo każda waga przyczyniła się do błędu, a optymalizator (np. SGD albo Adam) koryguje ją w stronę mniejszego błędu. Po tysiącach takich poprawek wagi „układają się” tak, że sieć zaczyna trafiać.
Liczba wag potrafi przyprawić o zawrót głowy. Kiedy słyszysz, że model ma „7 miliardów parametrów”, mowa głównie właśnie o wagach. Plik .safetensors czy .pth, który ściągasz z Hugging Face, to w praktyce zamrożony zestaw tych liczb.
Przykład z praktyki
W PyTorchu możesz podejrzeć wagi warstwy gołym okiem:
import torch.nn as nnlayer = nn.Linear(4, 2)— warstwa z 4 wejściami i 2 wyjściamiprint(layer.weight.shape)— zobaczysz tensor o kształcie[2, 4], czyli 8 wag
Te 8 liczb plus 2 biasy to wszystko, czego sieć się „nauczy” w tej warstwie. Skalując to do setek warstw, masz cały model.
Częste błędy i mity
Po pierwsze: waga to nie to samo co bias. Waga skaluje wejście, bias przesuwa wynik niezależnie od danych. Po drugie: inicjalizacja ma znaczenie — wystartowanie wszystkich wag od zera sprawia, że neurony uczą się identycznie i sieć nie ruszy (dlatego używa się np. inicjalizacji Xaviera albo He). Po trzecie: nie myl wag z hiperparametrami (jak learning rate) — te ostatnie ustawiasz Ty przed treningiem, a wag uczy się sam model. I jeszcze jedno: „duża waga” nie znaczy „ważniejsza cecha” w sensie interpretacji — wartości zależą też od skali wejść.
Pojęcia powiązane
Bias, neuron, funkcja aktywacji, backpropagation, gradient descent, learning rate, parametry, regularyzacja (np. weight decay), fine-tuning.