Sztuczna inteligencja generatywna

Sztuczna inteligencja generatywna (ang. generative AI, w skrócie GenAI) to klasa modeli uczenia maszynowego, które potrafią tworzyć nowe treści — tekst, obrazy, audio, wideo, a nawet kod — zamiast tylko klasyfikować czy przewidywać. Model uczy się statystycznych wzorców z ogromnego zbioru danych treningowych, a potem generuje nowe próbki, które wyglądają tak, jakby pochodziły z tego samego rozkładu. Kluczowe słowo to nowe: wynik nie jest wycięty z bazy, tylko składany na bieżąco na podstawie tego, czego model się „nauczył”.

Jak to działa

Różnica między klasycznym modelem a generatywnym sprowadza się do pytania, na które odpowiada. Model dyskryminacyjny pyta „czy to jest kot?”. Model generatywny pyta „jak wygląda kot?” i potrafi taki obraz wyprodukować. Dla tekstu najpopularniejsza dziś architektura to transformer: model przewiduje kolejny token (kawałek słowa) na podstawie poprzednich, robi to w pętli i tak powstają całe akapity. Dla obrazów królują dziś modele dyfuzyjne (diffusion), które uczą się odszumiać losowy szum aż do sensownej grafiki. Wcześniej rządziły GAN-y (generative adversarial networks), gdzie dwie sieci — generator i dyskryminator — grają ze sobą w kotka i myszkę.

W praktyce GenAI służy do pisania i streszczania tekstów, generowania grafik, tłumaczeń, podpowiadania kodu, syntezy mowy czy tworzenia danych syntetycznych do testów.

Przykład z praktyki

Najprościej zobaczysz to na modelu językowym. Wysyłasz prompt do API i dostajesz wygenerowany tekst. Przykładowo z lokalnym modelem przez ollama:

ollama run llama3 "Wytłumacz rekurencję jak dla juniora, w 3 zdaniach"

Model nie ma gotowej odpowiedzi w szufladzie — generuje ją token po tokenie. Dlatego dwa identyczne prompty potrafią dać różne odpowiedzi (steruje tym m.in. parametr temperature: wyżej = bardziej kreatywnie i losowo, niżej = bardziej przewidywalnie).

Częste błędy i mity

„Model wie, co mówi” — nie. On przewiduje prawdopodobny ciąg tokenów, a nie sprawdza prawdę. Stąd halucynacje: pewnym tonem podane wymyślone fakty, nazwiska czy nieistniejące funkcje API. Zawsze weryfikuj.
„To wyszukiwarka” — bazowy model nie przeszukuje internetu. Działa na tym, co miał w treningu (stąd cutoff wiedzy), chyba że podłączysz mu dane przez RAG albo narzędzia.
„Wynik jest mój i bezpieczny” — uważaj na prawa autorskie danych treningowych i na to, co wklejasz w prompt. Firmowe sekrety w okienku chatu to klasyczny strzał w stopę.

Pojęcia powiązane: large language model (LLM), transformer, modele dyfuzyjne, GAN, prompt engineering, fine-tuning, RAG, halucynacje, token, embedding.