Hiperparametr określający wielkość kroku przy aktualizacji parametrów podczas optymalizacji. Zbyt duży grozi przeskoczeniem minimum, zbyt mały spowalnia naukę.
Popularna funkcja aktywacji zwracająca zero dla wartości ujemnych, a samą wartość dla dodatnich. Przyspiesza trenowanie głębokich sieci i ogranicza zanikanie gradientu.