Niedouczenie - Learning Zone

Niedouczenie (ang. underfitting) to sytuacja, w której model uczenia maszynowego jest zbyt prosty, żeby wychwycić rzeczywiste zależności w danych. Efekt? Wypada słabo wszędzie — i na zbiorze treningowym, i na testowym. To dokładne przeciwieństwo overfittingu: tam model wkuwa dane na pamięć, tutaj ledwie liznął temat i daje ogólnikowe, mało trafne predykcje.

Jak to rozpoznać

Najprostszy sygnał: niski wynik (np. accuracy, R²) już na danych treningowych. Jeśli model nie potrafi nauczyć się nawet tego, co widział, to nie ma szans uogólnić na nowe przykłady. Mówimy wtedy o wysokim bias — model robi systematyczne, uproszczone założenia o świecie. Klasyk: próbujesz dopasować prostą linię do danych, które układają się w wyraźną parabolę. Linia nigdy nie trafi, choćbyś ją liczył w nieskończoność.

Niedouczenie bierze się zwykle z kilku powodów: model za mało pojemny (np. regresja liniowa do nieliniowego problemu), za agresywna regularyzacja, za krótki trening albo cechy (features), które po prostu nie niosą informacji.

Przykład z praktyki

Trenujesz klasyfikator w scikit-learn i bierzesz LogisticRegression do danych, gdzie granica decyzyjna jest mocno zakrzywiona. Patrzysz na metryki i widzisz np. 0.62 accuracy na treningu i 0.61 na teście. Oba niskie i prawie równe — to podpis niedouczenia. Co robisz? Dajesz model o większej pojemności, np. RandomForestClassifier albo GradientBoostingClassifier, albo dorzucasz cechy nieliniowe przez PolynomialFeatures. Jeśli masz sieć neuronową — dokładasz warstw/neuronów, luzujesz weight_decay i trenujesz dłużej. Pomocna jest learning curve: gdy krzywa treningowa i walidacyjna utykają nisko i blisko siebie, to nie brak danych, tylko za słaby model.

Na co uważać

Najczęstszy błąd to walka z niedouczeniem narzędziami od overfittingu. Dorzucasz dropout, podkręcasz regularyzację, dosypujesz danych — a model dalej leży, bo problem jest odwrotny: trzeba zwiększyć złożoność, a nie ją ciąć. Drugi mit: „skoro train i test mają podobny wynik, to jest dobrze”. Podobny wynik jest spoko tylko wtedy, gdy oba są wysokie. Dwie niskie liczby obok siebie to nie balans, to wspólna porażka.

Pojęcia powiązane: overfitting, kompromis bias-variance, regularyzacja, learning curve, walidacja krzyżowa (cross-validation), pojemność modelu (model capacity).