Kuvageneraattori

From Wikipedia, the free encyclopedia

Kuvageneraattori
Remove ads

Kuvageneraattorit ovat koneoppimismalleja, jotka luovat kuvia tekstipohjaisiin kuvauksiin perustuen. Tällaisia malleja alettiin kehittää 2010-luvun puolivälissä syvien neuroverkkojen edistysaskelten ansiosta, ja vuoteen 2022 mennessä huippuluokan malleilla, kuten OpenAI:n DALL-E 2:lla, Google Brainin Imagenilla ja StabilityAI:n Stable Diffusionilla, pystyttiin tuottamaan lähes valokuvanlaatuisia kuvia.

Thumb
Dall-E 2 -kuvageneraattorin tuottama kuva tekstisyötteellä "Juhannus explosion"

Kuvageneraattorimallit koostuvat yleensä kielimallista, joka muuttaa syötetekstin latentiksi esitykseksi, ja generatiivisesta kuvamallista, joka luo kuvan tähän esitykseen perustuen. Ne koulutetaan valtavilla määrillä kuvia ja tekstiä, jotka yleensä kerätään internetistä.[1]

Remove ads

Historia

Ensimmäinen moderni kuvageneraattorimalli, alignDRAW, esiteltiin vuonna 2015.[2] Myöhemmät mallit, kuten VQGAN+CLIP, XMC-GAN, GauGAN2, DALL-E ja DALL-E 2, paransivat kuvan laatua ja realistisuutta. Teksti-videoksi-alustat, kuten Runway[3] ja Make-A-Video[4], kehittyivät teksti-kuvaksi -mallien jatkokehityksenä.

Teknologia

Kuvageneraattorimallit käyttävät erilaisia arkkitehtuureja, ja transformer-mallit ovat yleistyneet tekstin koodaamiseen, kun taas ehdolliset generatiiviset adversariaaliset verkot tai diffuusiomallit ovat suosittuja kuvien generointiin. Mallit koulutetaan suurilla kuvatekstiparien aineistoilla, kuten LAION-5B, COCO, Oxford-120 Flowers ja CUB-200 Birds. Kuvageneraattorien mallien arviointiin sisältyy niiden kuvan laadun, monimuotoisuuden ja semanttisen yhteneväisyyden syötetekstin kanssa arviointi. Arvioinnissa käytetään metriikoita, kuten Inception-pisteitä (IS) ja Fréchet Inception -etäisyyttä.[5]

Remove ads

Käyttötarkoitukset

Kuvageneraattorimalleilla on erilaisia käyttökohteita, kuten taide, muotoilu, prototyyppien luominen ja taiteellisen tuotannon saavutettavuuden lisääminen. Ne muodostavat myös osan laajemmasta keinotekoisen median suuntauksesta, jonka odotetaan vaikuttavan liiketoimintaan tulevina vuosina.[6]

Käyttö

Useimmat kuvageneraattorit toimivat pilvipalvelussa. Kuvien sisältöä määrittävä teksti syötetään palveluun selaimella tai Midjourneyn tapauksessa Discord-sovelluksella. Sitten pilvipalvelu generoi kuvan ja näyttää sen hetken kuluttua selaimessa.[7]

Luettelo kuvageneraattoreista

Videogeneraattorit

Google on kehittänyt videogeneraattoreita nimillä Lumiere[12] ja Veo[13]. Samansuuntaisesta kehitystyöstä ovat kertoneet myös Meta[14][15], Runway-yhtiö[16] ja OpenAI[17].

Katso myös

Lähteet

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads