Parametr to wewnętrzna, uczona zmienna modelu — liczba, którą algorytm sam dobiera podczas treningu, żeby jak najlepiej dopasować się do danych. W sieci neuronowej parametrami są przede wszystkim wagi (siła połączeń między neuronami) oraz biasy (przesunięcia), a w prostszej regresji liniowej — współczynniki przy zmiennych i wyraz wolny. To właśnie liczba parametrów najczęściej decyduje, gdy ktoś mówi o „rozmiarze” modelu: 7B oznacza 7 miliardów parametrów.
Jak to działa
Na starcie parametry mają wartości losowe, więc model gada bzdury. Trening to pętla: model robi predykcję, funkcja straty (loss) liczy, jak bardzo się pomylił, a algorytm w rodzaju gradient descent minimalnie koryguje każdy parametr w stronę mniejszego błędu. Powtórz to miliony razy na dużym zbiorze danych i z losowego szumu wyłaniają się wagi, które faktycznie coś modelują.
Kluczowe: parametry są uczone z danych. To odróżnia je od hiperparametrów (np. learning rate, liczba warstw, batch size), które Ty ustawiasz przed treningiem i które sterują samym procesem uczenia. Parametry trafiają do pliku z wagami (np. .safetensors, .pt) — to one są tym, co pobierasz, gdy ściągasz model.
Przykład z praktyki
Załóżmy, że robisz klasyfikator w PyTorch. Chcesz wiedzieć, ile parametrów ma Twoja sieć — liczysz tak:
sum(p.numel() for p in model.parameters() if p.requires_grad)
To zwraca liczbę uczonych parametrów. Jeśli pobierasz Llama 3 8B z Hugging Face, dostajesz ~8 mld wartości zapisanych w plikach wag. Przy fine-tuningu metodą LoRA nie ruszasz tych 8 miliardów — zamrażasz je i douczasz tylko maleńki zestaw dodatkowych parametrów (czasem <1% całości), co drastycznie tnie zużycie pamięci GPU.
Częste błędy i mity
- „Więcej parametrów = lepszy model” — nieprawda. Liczy się też jakość danych, architektura i ile tokenów treningu model widział. Mniejszy, dobrze wytrenowany model bywa lepszy od większego niedouczonego.
- Mylenie parametrów z hiperparametrami — learning rate to hiperparametr, waga neuronu to parametr. Egzaminacyjny klasyk.
- Liczba parametrów a pamięć — model 7B w
float32to ~28 GB, ale w kwantyzacji do 4-bit zejdziesz do ~4 GB. Ten sam model, ta sama liczba parametrów, inna precyzja na parametr.
Pojęcia powiązane
Wagi i biasy, hiperparametr, gradient descent, funkcja straty, fine-tuning, LoRA, kwantyzacja, overfitting, regresja liniowa.