Multimodalność to zdolność modelu AI do przyjmowania i łączenia kilku rodzajów danych naraz — tekstu, obrazu, dźwięku, czasem wideo — i traktowania ich jako jednej, spójnej całości. Model unimodalny robi jedną rzecz: czyta tekst albo rozpoznaje obrazek. Model multimodalny dostaje zdjęcie wykresu razem z pytaniem „co tu nie gra?” i odpowiada zdaniem, bo rozumie oba sygnały jednocześnie. Słowo klucz to łączenie — nie chodzi o to, że narzędzie ma osobny moduł do tekstu i osobny do grafiki, tylko że jeden model rozumie zależności między nimi.
Jak to działa
Każdy typ danych zamieniany jest na embeddingi, czyli wektory liczb w wspólnej przestrzeni. Obraz przepuszczasz przez enkoder wizyjny, tekst przez tokenizer i enkoder językowy, a dźwięk najpierw przez coś w stylu Whispera. Sztuka polega na tym, żeby reprezentacja słowa „pies” i zdjęcia psa lądowały blisko siebie w tej samej przestrzeni. Pionierem tego podejścia był CLIP od OpenAI, który uczył się parować obrazy z opisami.
W praktyce używasz multimodalności do OCR-u i opisywania zdjęć, do analizy zrzutów ekranu z błędem, generowania grafik z promptu tekstowego (DALL·E, Midjourney), transkrypcji i tłumaczenia mowy, a coraz częściej do sterowania interfejsem na podstawie tego, co model „widzi” na ekranie.
Przykład z praktyki
Załóżmy, że masz screenshot stack trace’a i nie chce ci się go przepisywać. Wrzucasz obrazek do modelu z vision — GPT-4o, Claude albo Gemini — i piszesz: „przeczytaj ten błąd i powiedz, w której linijce leży problem”. Przez API wygląda to mniej więcej tak:
messages=[{"role":"user","content":[{"type":"text","text":"Co powoduje ten błąd?"},{"type":"image_url","image_url":{"url":"data:image/png;base64,..."}}]}]
Model czyta tekst ze zdjęcia i jednocześnie rozumuje nad treścią pytania. Żadnego osobnego OCR-u, żadnego ręcznego przepisywania.
Na co uważać
Najczęstszy mit: „multimodalny znaczy, że model wszystko widzi tak jak człowiek”. Nie. Drobny tekst na zdjęciu, odwrócone obrazy czy słaba jakość potrafią go rozłożyć, a halucynacje przy opisie obrazu są wciąż realne — model czasem „widzi” rzeczy, których nie ma. Druga pułapka to mylenie multimodalności z prostym pipeline’em (osobny OCR plus osobny czat) — to nie to samo co model, który rozumie modalności łącznie. I pamiętaj: obrazy i audio kosztują sporo tokenów, więc wrzucanie wielkich plików potrafi szybko podbić rachunek.
Pojęcia powiązane
Embeddingi, enkoder wizyjny, CLIP, vision (modele wizyjne), LLM, tokeny, RAG, fine-tuning, modalność (modality), transkrypcja mowy.