Transformer - Learning Zone

Transformer to architektura sieci neuronowej zbudowana wokół mechanizmu uwagi (self-attention), która zamiast przetwarzać tekst słowo po słowie, patrzy na całą sekwencję naraz i sama decyduje, które tokeny są dla siebie ważne. Zadebiutowała w 2017 roku w pracy Google „Attention Is All You Need” i dziś stanowi fundament niemal wszystkich dużych modeli językowych (LLM) — od GPT, przez Claude, po BERT.

Jak to działa

Wcześniejsze podejścia (RNN, LSTM) czytały zdanie sekwencyjnie, co utrudniało zrównoleglenie i gubienie kontekstu w długich tekstach. Transformer rozbija tekst na tokeny, zamienia je na wektory (embeddingi) i dorzuca informację o pozycji (positional encoding), bo sam w sobie nie ma poczucia kolejności. Potem mechanizm self-attention dla każdego tokena liczy, jak bardzo powinien „patrzeć” na pozostałe — dzięki temu w zdaniu „kot nie zjadł myszy, bo był najedzony” model wie, że „był” odnosi się do kota, a nie do myszy.

Kluczowe jest to, że całość liczy się równolegle, co świetnie leży GPU i pozwala trenować modele na ogromnych zbiorach. Architektura ma dwie połowy: encoder (rozumie wejście) i decoder (generuje wyjście). Modele typu GPT używają samego decodera, BERT — samego encodera.

Przykład z praktyki

Nie musisz pisać transformera od zera. W praktyce sięgasz po bibliotekę transformers od Hugging Face. Załadowanie gotowego modelu do analizy sentymentu to dosłownie kilka linii:

from transformers import pipeline
clf = pipeline("sentiment-analysis")
clf("Ten kurs jest świetny") — zwróci etykietę i pewność.

Pod spodem siedzi wytrenowany transformer, a ty tylko podajesz tekst.

Częste błędy i mity

Mit: „Transformer to to samo co ChatGPT”. Nie — transformer to architektura, a ChatGPT to konkretny produkt zbudowany na jej bazie. Uwaga na koszt: klasyczny self-attention skaluje się kwadratowo względem długości sekwencji, więc bardzo długie teksty potrafią zżreć pamięć — stąd limity context window. I nie myl transformera (model ML) z transformatorem elektrycznym — wyszukiwarka czasem robi z tego niezły miks.

Pojęcia powiązane

self-attention, embedding, token, LLM, sieć neuronowa, GPT, BERT, positional encoding, context window.