Dostrajanie

Proces dalszego trenowania wstępnie nauczonego modelu na mniejszym, specjalistycznym zbiorze danych, aby poprawić jego skuteczność w konkretnym zadaniu.

Dostrajanie (ang. fine-tuning) to proces dalszego trenowania modelu, który wcześniej nauczył się ogólnych wzorców na ogromnym zbiorze danych, na mniejszym i bardziej wyspecjalizowanym zbiorze. Zamiast budować model od zera (co kosztuje miliony i wymaga gigantycznych mocy obliczeniowych), bierzesz gotowy, pre-trained model i pokazujesz mu setki czy tysiące przykładów z Twojej dziedziny, żeby zaczął odpowiadać tak, jak tego potrzebujesz.

Jak to działa i do czego służy

Wstępnie nauczony model (np. duży model językowy) zna już gramatykę, fakty i logikę. Brakuje mu jednak Twojego kontekstu: żargonu firmy, formatu odpowiedzi, stylu obsługi klienta czy specyfiki branżowych dokumentów. Dostrajanie polega na tym, że karmisz model parami przykładów (wejście → oczekiwane wyjście), a algorytm minimalnie koryguje jego wagi, żeby trafiał w ten konkretny wzorzec.

Najczęściej nie ruszasz wszystkich parametrów — to za drogie. Używasz technik typu LoRA czy QLoRA (tzw. PEFT, Parameter-Efficient Fine-Tuning), gdzie douczasz tylko niewielki zestaw dodatkowych wag. Efekt jest podobny, a zmieścisz się na jednej karcie GPU zamiast na całej serwerowni.

Przykład z praktyki

Masz model open-source (np. z rodziny Llama lub Mistral) i chcesz, żeby klasyfikował zgłoszenia supportu na kategorie. Przygotowujesz dataset.jsonl z przykładami, a potem odpalasz dostrajanie biblioteką Hugging Face:

  • pip install transformers peft trl
  • ładujesz model i tokenizer, podpinasz konfigurację LoRA,
  • uruchamiasz SFTTrainer i czekasz, aż loss spadnie.

Po treningu masz mały plik z adapterem (kilkanaście–kilkaset MB), który doklejasz do bazowego modelu. Komercyjnie ten sam efekt osiągniesz przez API, np. OpenAI udostępnia endpoint do fine-tuningu, gdzie wgrywasz plik .jsonl i dostajesz własny ID modelu.

Częste błędy i mity

Mit: „dostrajanie nauczy model nowej wiedzy”. Częściowo — ale do podawania świeżych faktów zwykle lepszy jest RAG (doklejanie dokumentów do promptu). Fine-tuning lepiej zmienia styl i zachowanie niż wkuwa bazę wiedzy.

Na co uważać:

  • Za mało danych albo śmieciowe dane — model nauczy się Twoich literówek i sprzeczności.
  • Overfitting — przesadzisz z liczbą epok i model będzie świetny na zbiorze treningowym, a głupi na nowych przykładach.
  • Catastrophic forgetting — zbyt agresywne dostrajanie potrafi „wymazać” ogólne umiejętności modelu.

Zanim sięgniesz po fine-tuning, sprawdź, czy nie wystarczy prompt engineering albo few-shot prompting — bywa, że dobry prompt załatwia sprawę za darmo.

Pojęcia powiązane

Pre-training, transfer learning, LoRA/QLoRA, PEFT, RAG, prompt engineering, embeddings, model bazowy (foundation model).