Kuvageneraattori

Kuvageneraattorit ovat koneoppimismalleja, jotka luovat kuvia tekstipohjaisiin kuvauksiin perustuen. Tällaisia malleja alettiin kehittää 2010-luvun puolivälissä syvien neuroverkkojen edistysaskelten ansiosta, ja vuoteen 2022 mennessä huippuluokan malleilla, kuten OpenAI:n DALL-E 2:lla, Google Brainin Imagenilla ja StabilityAI:n Stable Diffusionilla, pystyttiin tuottamaan lähes valokuvanlaatuisia kuvia.

Kuvageneraattorimallit koostuvat yleensä kielimallista, joka muuttaa syötetekstin latentiksi esitykseksi, ja generatiivisesta kuvamallista, joka luo kuvan tähän esitykseen perustuen. Ne koulutetaan valtavilla määrillä kuvia ja tekstiä, jotka yleensä kerätään internetistä.^[1]

Historia

Ensimmäinen moderni kuvageneraattorimalli, alignDRAW, esiteltiin vuonna 2015.^[2] Myöhemmät mallit, kuten VQGAN+CLIP, XMC-GAN, GauGAN2, DALL-E ja DALL-E 2, paransivat kuvan laatua ja realistisuutta. Teksti-videoksi-alustat, kuten Runway^[3] ja Make-A-Video^[4], kehittyivät teksti-kuvaksi -mallien jatkokehityksenä.

Teknologia

Kuvageneraattorimallit käyttävät erilaisia arkkitehtuureja, ja transformer-mallit ovat yleistyneet tekstin koodaamiseen, kun taas ehdolliset generatiiviset adversariaaliset verkot tai diffuusiomallit ovat suosittuja kuvien generointiin. Mallit koulutetaan suurilla kuvatekstiparien aineistoilla, kuten LAION-5B, COCO, Oxford-120 Flowers ja CUB-200 Birds. Kuvageneraattorien mallien arviointiin sisältyy niiden kuvan laadun, monimuotoisuuden ja semanttisen yhteneväisyyden syötetekstin kanssa arviointi. Arvioinnissa käytetään metriikoita, kuten Inception-pisteitä (IS) ja Fréchet Inception -etäisyyttä.^[5]

Remove ads

Käyttötarkoitukset

Kuvageneraattorimalleilla on erilaisia käyttökohteita, kuten taide, muotoilu, prototyyppien luominen ja taiteellisen tuotannon saavutettavuuden lisääminen. Ne muodostavat myös osan laajemmasta keinotekoisen median suuntauksesta, jonka odotetaan vaikuttavan liiketoimintaan tulevina vuosina.^[6]

Luettelo kuvageneraattoreista

Midjourney Inc.:n Midjourney
CompVis-tutkimusryhmän Stable Diffusion
OpenAI:n DALL-E
- Microsoftin Image Creator from Designer^[8]^[9] perustuu DALL-E:n versioon 3.^[7]
- Freepik-kuvapankin sisältämä kuvageneraattori perustuu DALL-E:n tuntemattomaan versioon.^[7]
Boris Dayman Craiyon^[10]
Ideogram AI:n Ideogram^[11]

Historia

Teknologia

Käyttötarkoitukset

Käyttö

Luettelo kuvageneraattoreista

Videogeneraattorit

Katso myös

Lähteet

Wikiwand - on