Model teksta u sliku

From Wikipedia, the free encyclopedia

Model teksta u sliku
Remove ads
Remove ads

Model teksta u sliku je model mašinskog učenja koji uzima ulazni opis prirodnog jezika i proizvodi sliku koja odgovara tom opisu.

Thumb
Slika sa nazivom „astronaut koji jaše konja, od Hirošiga“, generisan od strane Stabilne difuzije, velikog modela teksta-u-sliku objavljenog 2022.

Modeli teksta u sliku počeli su da se razvijaju sredinom 2010-ih tokom početka buma veštačke inteligencije, kao rezultat napretka u dubokim neuronskim mrežama. Godine 2022, za izlaze najsavremenijih modela teksta u sliku – kao što su OpenAI-ov DALL-E 2, Google Brain-ov Imagen, Stability AI-ov Stable Diffusion i Midjourney – počelo se smatrati da se približava kvalitetu realnih fotografija i ljudske umetnosti.

Modeli teksta u sliku generalno kombinuju jezički model, koji pretvara ulazni tekst u latentnu reprezentaciju, i generativni model slike, koji proizvodi sliku uslovljenu tom reprezentacijom. Najefikasniji modeli su generalno obučeni na ogromnim količinama slikovnih i tekstualnih podataka preuzetih sa veba.[1]

Remove ads

Reference

Loading content...
Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads