Kuvageneraattori
From Wikipedia, the free encyclopedia
Remove ads
Kuvageneraattorit ovat koneoppimismalleja, jotka luovat kuvia tekstipohjaisiin kuvauksiin perustuen. Tällaisia malleja alettiin kehittää 2010-luvun puolivälissä syvien neuroverkkojen edistysaskelten ansiosta, ja vuoteen 2022 mennessä huippuluokan malleilla, kuten OpenAI:n DALL-E 2:lla, Google Brainin Imagenilla ja StabilityAI:n Stable Diffusionilla, pystyttiin tuottamaan lähes valokuvanlaatuisia kuvia.

Kuvageneraattorimallit koostuvat yleensä kielimallista, joka muuttaa syötetekstin latentiksi esitykseksi, ja generatiivisesta kuvamallista, joka luo kuvan tähän esitykseen perustuen. Ne koulutetaan valtavilla määrillä kuvia ja tekstiä, jotka yleensä kerätään internetistä.[1]
Remove ads
Historia
Ensimmäinen moderni kuvageneraattorimalli, alignDRAW, esiteltiin vuonna 2015.[2] Myöhemmät mallit, kuten VQGAN+CLIP, XMC-GAN, GauGAN2, DALL-E ja DALL-E 2, paransivat kuvan laatua ja realistisuutta. Teksti-videoksi-alustat, kuten Runway[3] ja Make-A-Video[4], kehittyivät teksti-kuvaksi -mallien jatkokehityksenä.
Teknologia
Kuvageneraattorimallit käyttävät erilaisia arkkitehtuureja, ja transformer-mallit ovat yleistyneet tekstin koodaamiseen, kun taas ehdolliset generatiiviset adversariaaliset verkot tai diffuusiomallit ovat suosittuja kuvien generointiin. Mallit koulutetaan suurilla kuvatekstiparien aineistoilla, kuten LAION-5B, COCO, Oxford-120 Flowers ja CUB-200 Birds. Kuvageneraattorien mallien arviointiin sisältyy niiden kuvan laadun, monimuotoisuuden ja semanttisen yhteneväisyyden syötetekstin kanssa arviointi. Arvioinnissa käytetään metriikoita, kuten Inception-pisteitä (IS) ja Fréchet Inception -etäisyyttä.[5]
Remove ads
Käyttötarkoitukset
Kuvageneraattorimalleilla on erilaisia käyttökohteita, kuten taide, muotoilu, prototyyppien luominen ja taiteellisen tuotannon saavutettavuuden lisääminen. Ne muodostavat myös osan laajemmasta keinotekoisen median suuntauksesta, jonka odotetaan vaikuttavan liiketoimintaan tulevina vuosina.[6]
Käyttö
Useimmat kuvageneraattorit toimivat pilvipalvelussa. Kuvien sisältöä määrittävä teksti syötetään palveluun selaimella tai Midjourneyn tapauksessa Discord-sovelluksella. Sitten pilvipalvelu generoi kuvan ja näyttää sen hetken kuluttua selaimessa.[7]
Luettelo kuvageneraattoreista
- Midjourney Inc.:n Midjourney
- CompVis-tutkimusryhmän Stable Diffusion
- OpenAI:n DALL-E
- Microsoftin Image Creator from Designer[8][9] perustuu DALL-E:n versioon 3.[7]
- Freepik-kuvapankin sisältämä kuvageneraattori perustuu DALL-E:n tuntemattomaan versioon.[7]
- Boris Dayman Craiyon[10]
- Ideogram AI:n Ideogram[11]
Videogeneraattorit
Google on kehittänyt videogeneraattoreita nimillä Lumiere[12] ja Veo[13]. Samansuuntaisesta kehitystyöstä ovat kertoneet myös Meta[14][15], Runway-yhtiö[16] ja OpenAI[17].
Katso myös
Lähteet
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads