Tokenizacja

Proces dzielenia tekstu na mniejsze jednostki (tokeny) przed przekazaniem go do modelu. To pierwszy krok przygotowania danych tekstowych.

Mechanizm uwagi

Technika pozwalająca modelowi ważyć znaczenie różnych fragmentów wejścia przy generowaniu wyniku. Kluczowy element architektury transformer.

Transformer

Architektura sieci neuronowej oparta na mechanizmie uwagi, dominująca w przetwarzaniu języka. Stanowi podstawę dużych modeli językowych.

Rekurencyjna sieć neuronowa

Sieć przetwarzająca dane sekwencyjne, która przekazuje informacje między kolejnymi krokami. Stosowana m.in. do tekstu i szeregów czasowych.

Splotowa sieć neuronowa

Architektura sieci wykorzystująca operacje splotu do wykrywania lokalnych wzorców, szczególnie skuteczna w analizie obrazów.

Normalizacja wsadowa

Technika stabilizująca i przyspieszająca trening sieci przez normalizowanie wyjść warstw w obrębie mini-partii danych.

Regularyzacja

Zestaw technik ograniczających przeuczenie przez karanie nadmiernej złożoności modelu. Typowe metody to regularyzacja L1 i L2.

Waga

Liczbowa wartość przypisana połączeniu między neuronami, określająca siłę wpływu jednego neuronu na drugi. Wagi są dostrajane podczas treningu.

Współczynnik uczenia

Hiperparametr określający wielkość kroku przy aktualizacji parametrów podczas optymalizacji. Zbyt duży grozi przeskoczeniem minimum, zbyt mały spowalnia naukę.

ReLU

Popularna funkcja aktywacji zwracająca zero dla wartości ujemnych, a samą wartość dla dodatnich. Przyspiesza trenowanie głębokich sieci i ogranicza zanikanie gradientu.