Najlepsze pytania
Chronologia
Czat
Perspektywa

Stable Diffusion

Z Wikipedii, wolnej encyklopedii

Stable Diffusion
Remove ads

Stable Diffusion – generator obrazu z tekstu oparty na uczeniu głębokim. Narzędzie jest udostępnione w formie kodu źródłowego i pozwala na nie tylko generowanie obrazów z tekstu ale też naprawianie uszkodzonych obrazów[1] i rozszerzanie obrazu poza jego oryginalne granice (ang. outpainting)[2].

Szybkie fakty Autor, Pierwsze wydanie ...

Kod i wagi modelu są dostępne publicznie i może działać na komputerach z co najmniej 8 GB pamięci GPU[3]. Podczas swojego opublikowania w 2022 stanowił alternatywę dla podobnych dużych modeli generowania obrazu jak DALL-E czy Midjourney, które działają na zasadzie usługi SaaS[4][5].

Stable Diffusion jest oparty na LDM(inne języki), jednym z modeli dyfuzyjnych[6] opracowanych na Uniwersytecie Monachijskim[7].

Remove ads

Technologia

Thumb
Proces odszumiania używany przez Stable Diffusion. Model generuje obrazy przez odszumianie.

Stable Diffusion trenowano na parach obrazów i podpisów pobranych z LAION-5B, publicznie dostępnego zestawu danych z 5 miliardami par obraz-tekst[8].

Model trenowano przy użyciu 256 procesorów graficznych Nvidia A100 w Amazon Web Services, co łącznie zajęło 150 000 godzin pracy procesora graficznego, a koszt wyniósł 600 000 USD[9].

Remove ads

Przypisy

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads