Stable Diffusion

Stable Diffusion
Stable Diffusion
Тип	модель преобразования текста в изображение[вд], модель латентной переменной, диффузионная модель[вд] и модель глубокого обучения[вд]
Написана на	Python
Операционные системы	Linux, macOS и Windows
Первый выпуск	22 августа 2022
Последняя версия	3.5 (23 октября 2024);
Репозиторий	github.com/Stability-AI/…
Лицензия	Stability AI Community License[вд]
Сайт	stability.ai/stab… (англ.)
	Медиафайлы на Викискладе

Stable Diffusion (дословно «стабильная диффузия») — модель глубокого обучения, создающая изображения по текстовым описаниям^[англ.], с открытым исходным кодом^[2]. Выпущена в 2022 году компанией Stability AI и основана на методах диффузии^[англ.]. В основном используется для создания детальных изображений на основе текстовых описаний, хотя её также можно применять и для других задач, например дорисовывать наброски и редактировать исходные картинки^[3]. Разработана группой компаний CompVis в Мюнхенском университете. Кроме того, в разработке участвовали Runway, EleutherAI и LAION^[4]^[5]^[6]^[7].

Краткие факты Тип, Написана на ...

Stable Diffusion — модель скрытой диффузии, своего рода глубокая генеративная нейронная сеть. Код и вес модели были открыты^[8]. Может работать на большинстве потребительских устройств, оснащенных графическим процессором с объёмом видеопамяти не менее 4 ГБ. Её появление ознаменовало отход от предыдущих проприетарных моделей преобразования текста в изображение, таких как DALL-E и Midjourney, которые были доступны только через облачные сервисы^[9]^[10].

В настоящее время наиболее распространены модификации: Stable Diffusion v1.0, Stable Diffusion XL и Stable Diffusion 3. Последняя третья версия построена на архитектуре DiT-трансформер^[11], в отличие от первых двух, имеющих в своей основе U-Net^[12].

[2]

[3]

[4]

[5]

[6]

[7]

[1]

[8]

[9]

[10]

[11]

[12]

Stable Diffusion

См. также

Примечания

Wikiwand - on