Multimodalno učenje

From Wikipedia, the free encyclopedia

Remove ads

Multimodalno učenje, u kontekstu mašinskog učenja, je vrsta dubokog učenja koristeći više modaliteta podataka, kao što su tekst, audio ili slike.

Nasuprot tome, unimodalni modeli mogu da obrađuju samo jednu vrstu podataka, kao što je tekst (obično predstavljen kao vektori karakteristika) ili slike. Multimodalno učenje se razlikuje od kombinovanja unimodalnih modela obučenih nezavisno. Ono kombinuje informacije iz različitih modaliteta kako bi se napravila bolja predviđanja.[1]

Veliki multimodalni modeli, kao što su Guglov Džeminaj i GPT-4o, postaju sve popularniji od 2023. godine, omogućavajući veću svestranost i šire razumevanje pojava u stvarnom svetu.[2]

Remove ads

Aplikacija

Multimodalne duboke Bolcmanove mašine se uspešno koriste u klasifikaciji i pronalaženju podataka koji nedostaju. Tačnost klasifikacije multimodalnih dubokih Bolcmanovih mašina nadmašuje mašinu potpornih vektora, latentnu Dirihleovu alokaciju i mrežu dubokih verovanja, kada se modeli testiraju na podacima sa oba modaliteta slika-tekst ili sa jednim modalitetom. Multimodalne duboke Bolcmanove mašine su takođe u stanju da predvide nedostajuće modalitete s obzirom na posmatrane sa prilično dobrom preciznošću. Samonadgledano učenje donosi zanimljiviji i moćniji model za multimodalnost. OpenAI je razvio CLIP i DALL-E modele koji su revolucionirali multimodalnost.

Multimodalno duboko učenje se koristi za skrining raka – najmanje jedan sistem u razvoju integriše tako različite tipove podataka.[3][4]

Remove ads

Reference

Loading content...
Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads