Najlepsze pytania
Chronologia
Czat
Perspektywa
Stable Diffusion
Z Wikipedii, wolnej encyklopedii
Remove ads
Stable Diffusion – generator obrazu z tekstu oparty na uczeniu głębokim. Narzędzie jest udostępnione w formie kodu źródłowego i pozwala na nie tylko generowanie obrazów z tekstu ale też naprawianie uszkodzonych obrazów[1] i rozszerzanie obrazu poza jego oryginalne granice (ang. outpainting)[2].
Kod i wagi modelu są dostępne publicznie i może działać na komputerach z co najmniej 8 GB pamięci GPU[3]. Podczas swojego opublikowania w 2022 stanowił alternatywę dla podobnych dużych modeli generowania obrazu jak DALL-E czy Midjourney, które działają na zasadzie usługi SaaS[4][5].
Stable Diffusion jest oparty na LDM , jednym z modeli dyfuzyjnych[6] opracowanych na Uniwersytecie Monachijskim[7].
Remove ads
Technologia

Stable Diffusion trenowano na parach obrazów i podpisów pobranych z LAION-5B, publicznie dostępnego zestawu danych z 5 miliardami par obraz-tekst[8].
Model trenowano przy użyciu 256 procesorów graficznych Nvidia A100 w Amazon Web Services, co łącznie zajęło 150 000 godzin pracy procesora graficznego, a koszt wyniósł 600 000 USD[9].
Remove ads
Przypisy
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads