Stronniczość modelu

Systematyczne błędy w wynikach modelu wynikające ze skrzywionych danych treningowych lub wadliwych algorytmów. Może prowadzić do niesprawiedliwych decyzji.

Stronniczość modelu (ang. bias in AI) to systematyczne, powtarzalne przekrzywienie wyników modelu uczenia maszynowego — model myli się nie losowo, tylko zawsze w tę samą stronę. Najczęściej bierze się to z danych treningowych, które nie odzwierciedlają rzeczywistości (albo odzwierciedlają jej niesprawiedliwe fragmenty), rzadziej z samej konstrukcji algorytmu, sposobu etykietowania danych czy doboru cech. Efekt: model traktuje pewne grupy, przypadki lub klasy gorzej niż inne, choć nikt świadomie tego nie zaprogramował.

Mechanizm jest brutalnie prosty: model uczy się statystycznych wzorców z danych. Jeśli w danych historycznych jakaś grupa była niedoreprezentowana albo opisana stereotypowo, model potraktuje ten wzorzec jako „prawdę o świecie” i będzie go powielał, a często wręcz wzmacniał. To dlatego mówi się, że bias nie pojawia się w modelu — on tam wpływa razem z danymi. Stronniczość ma znaczenie wszędzie, gdzie model podejmuje decyzje o ludziach: scoring kredytowy, filtrowanie CV, moderacja treści, rozpoznawanie twarzy, diagnostyka medyczna.

Przykład z praktyki

Klasyczny case: Amazon około 2014–2018 budował wewnętrzny system do selekcji CV. Uczył go na dziesięciu latach zgłoszeń, w których dominowali mężczyźni. Model nauczył się więc deprecjonować aplikacje zawierające słowo „women’s” (np. „women’s chess club”) i obniżał oceny absolwentkom niektórych uczelni żeńskich. Projekt ostatecznie zamknięto.

Jak to wyłapać u siebie? Sprawdzasz metryki nie globalnie, tylko per grupa. W praktyce wygląda to tak: liczysz accuracy albo false_positive_rate osobno dla każdej podgrupy i porównujesz. Pomaga biblioteka fairlearn (Python): MetricFrame(metrics=recall_score, y_true=y, y_pred=pred, sensitive_features=plec) pokaże ci recall rozbity po wartości cechy wrażliwej. Jeśli słupki się rozjeżdżają, masz problem.

Mity i pułapki

  • „Usunę kolumnę z płcią/rasą i będzie fair” — nie. Model odtworzy cechę wrażliwą z proxy: kod pocztowy, imię, zainteresowania. To się nazywa proxy discrimination.
  • „Większy model = mniej biasu” — często odwrotnie. Większy model lepiej dopasowuje się do danych, więc i do ich przekrzywień.
  • Nie istnieje jedna „uczciwość”. Różne definicje fairness (równe szanse vs. równa dokładność) bywają matematycznie sprzeczne — nie da się spełnić wszystkich naraz, musisz wybrać.
  • Bias to nie to samo co zwykły błąd losowy — chodzi o systematyczność.

Pojęcia powiązane: dane treningowe, fairness, overfitting, proxy discrimination, data drift, model interpretability, hallucination, AI governance.