Model wstępnie wytrenowany (pre-trained model) to model uczenia maszynowego, który ktoś przeszkolił wcześniej na dużym, ogólnym zbiorze danych, żebyś Ty nie musiał zaczynać od czystej kartki. Zamiast trenować sieć neuronową od zera (co kosztuje tony danych, mnóstwo godzin GPU i realnych pieniędzy), bierzesz gotowy model, który już „rozumie” język, obrazy albo dźwięk, i dostrajasz go pod swoje konkretne zadanie. To trochę jak zatrudnienie kogoś z doświadczeniem zamiast szkolenia praktykanta od podstaw.
Jak to działa
Podczas wstępnego treningu (pre-training) model uczy się ogólnych wzorców z ogromnego korpusu — np. statystyki języka z miliardów zdań albo kształty i tekstury z milionów zdjęć. Te wzorce zapisują się w wagach modelu. Sam pre-training jest zwykle self-supervised: model przewiduje brakujące słowa albo kolejny token, więc nie potrzebuje ręcznie etykietowanych danych.
Gdy masz już taki model, robisz fine-tuning — douczasz go na swoim mniejszym, wyspecjalizowanym zbiorze (np. recenzje produktów, dokumentacja medyczna). Model przenosi wcześniej zdobytą „wiedzę” na nowe zadanie. To jest sedno transfer learningu: ogólne reprezentacje z dużego zbioru działają jako punkt startowy dla zadania, na które samodzielnie nigdy nie zebrałbyś tylu danych.
Przykład z praktyki
Klasyk: chcesz klasyfikować opinie klientów jako pozytywne/negatywne. Bierzesz bert-base-uncased z biblioteki Hugging Face Transformers i dokładasz głowicę klasyfikacyjną:
from transformers import AutoModelForSequenceClassification
model = AutoModelForSequenceClassification.from_pretrained("bert-base-uncased", num_labels=2)
BERT zna już język z pre-trainingu na Wikipedii i korpusie książek, więc do przyzwoitego klasyfikatora wystarczy Ci kilka tysięcy przykładów, a nie miliardy. W computer vision analogicznie używasz ResNet wytrenowanego na ImageNet jako bazy pod własny detektor.
Na co uważać
- Dziedziczysz uprzedzenia (bias) i błędy z danych treningowych. Jeśli korpus był stronniczy, Twój model też będzie — fine-tuning tego nie wymaże.
- Sprawdzaj licencję i datę odcięcia wiedzy. Model nie zna niczego, co powstało po zakończeniu jego treningu, a niektóre wagi mają ograniczenia komercyjne.
- Mit „pre-trained = gotowy do użycia”. Bez fine-tuningu albo dobrego promptu często dostaniesz wyniki ogólnikowe i nietrafione w Twój przypadek.
- Catastrophic forgetting — zbyt agresywny fine-tuning potrafi „wymazać” pierwotną wiedzę. Zwykle ratuje niższy learning rate.
Pojęcia powiązane
Warto kojarzyć: fine-tuning, transfer learning, foundation model, embeddingi, learning rate, model zoo, a po stronie lekkiego dostrajania bez ruszania wszystkich wag — LoRA i PEFT.