Stable Diffusion - Wikiwand

Stable Diffusion est un modèle d'apprentissage automatique permettant de générer des images numériques de différents styles, y compris photoréalistes, à partir de descriptions en langage naturel. Le modèle peut également être utilisé pour d'autres tâches, comme la génération d'une image améliorée à partir d'une esquisse et d'une description textuelle^[1].

Faits en bref Première version, Dépôt ...

Informations
Première version	22 août 2022
Dépôt	github.com/Stability-AI/generative-models
Écrit en	Python
Système d'exploitation	Linux, macOS et Microsoft Windows
Type	Prompt art Latent variable model (en) Modèle de diffusion (en) Modèle d'apprentissage profond (d)
Licence	Stability AI Community License (d)
Site web	stability.ai/stable-image

Il peut fonctionner sur la plupart des matériels grand public équipés d'une carte graphique même de moyenne gamme.

Remove ads

Licence

Résumé

Contexte

Le code source et le modèle de Stable Diffusion sont publics, ce qui n'en fait pas un logiciel libre^[2], car sa licence, dite CreativeML OpenRAIL-M, interdit certains cas d'utilisation, contrairement au principe de base de la fondation pour le logiciel libre^[3]^,^[4]^,^[5].

Cette licence, utilisée avant la version 3, interdit certains cas d'utilisation, notamment le crime, la diffamation, le harcèlement, le doxing, « l'exploitation de mineurs », la fourniture de conseils médicaux, la création automatique d'obligations légales, la production de preuves légales et « la discrimination ou le préjudice envers des individus ou des groupes en fonction de ... comportement social ou ... caractéristiques personnelles ou de personnalité ... [ou] caractéristiques ou catégories légalement protégées »^[6]^,^[7]. L'utilisateur possède les droits sur les images de sortie générées et il est libre de les utiliser à des fins commerciales^[8].

Les critiques déplorant la publication du code source peuvent en général être liées aux inquiétudes concernant l'éthique de l'intelligence artificielle. Elles s'appuient sur l'hypothèse que le modèle peut être utilisé pour créer des deepfakes^[9] et remettent également en question la légalité de la génération d'images avec un modèle formé sur un ensemble de données incluant du contenu protégé par le droit d'auteur, sans le consentement des artistes à l'origine de ce contenu^[10].

Stable Diffusion 3.5 applique la licence communautaire permissive Stability AI alors que les entreprises commerciales dont le chiffre d'affaires dépasse le million de dollars ont besoin de la licence d'entreprise Stability AI^[11]. Comme avec la licence OpenRAIL-M, l'utilisateur conserve les droits sur les images générées et il est libre de les utiliser à des fins commerciales^[12].

Remove ads

Technologie

Résumé

Contexte

Modèles

Davantage d’informations Version, date de sortie ...

Version	date de sortie	taille recommandée des images à générer	licence d'utilisation	Notes
1.0
1.4 ^[13]	août 2022	512 x 512 pixels	CreativeML OpenRAIL M license
1.5^[14]	octobre 2022	512 x 512 pixels	CreativeML OpenRAIL M license	Basé sur la version 1.2, publié par Runway ML, partenaire de Stability^[15]
2.0^[16]	novembre 2022	768 x 768 pixels	CreativeML OpenRAIL M license	Modèle entrainé sans images explicites (érotiques, pornographiques)^[17]
2.1^[18]	décembre 2022	768 x 768 pixels	CreativeML OpenRAIL M license
SDXL 0.9 base^[19]	juin 2023	1024 x 1024 pixels	SDXL 0.9 Research License
SDXL base 1.0^[20] SDXL refiner 1.0^[21]	juillet 2023	1024 x 1024 pixels	CreativeML Open RAIL++-M License
3.0 Medium	22 février 2024 (annonce et accès restreint) 12 juin 2024 (publication)	1024 x 1024 pixels	Stability Non-Commercial Research Community License

En novembre 2023, Stability publie une version distillée nommée SDXL-Turbo^[22], permettant la génération d'images en temps réel. À la différence des autres modèles, sa licence n'en permet pas un usage commercial et la version originale ne permet de générer que des images de 512x512 pixels. La communauté des utilisateurs^[23] a depuis entraîné d'autres modèles Turbo permettant de générer des images de 1024x1024 pixels. Ces modèles Turbo peuvent générer une image en quelques étapes de calcul^[24].

En février 2024, Stability publie un modèle Stable Cascade^[25] construit sur l'architecture Würstchen^[26]. Il fonctionne dans un espace latent beaucoup plus petit. Alors que Stable Diffusion utilise un facteur de compression de 8, ce qui signifie qu'une image de 1024x1024 est encodée en 128x128, Stable Cascade atteint un facteur de compression de 42, ce qui signifie qu'il est possible d'encoder une image de 1024x1024 en 24x24. Ce type de modèle est bien adapté aux utilisations où l'efficacité est importante. Comme la version Turbo, sa licence est non-commerciale et elle est destinée à la recherche.

Le 22 février 2024, Stability annonce la prochaine version de son modèle, Stable Diffusion 3^[27].

Entraînement

Stable Diffusion est formé sur un sous-ensemble du jeu de données LAION-Aesthetics V2^[28]. Il est entraîné sur 256 GPU Nvidia A100 pour un coût de 600 000 $^[29].

ControlNet

ControlNet^[30] est une structure de réseau neuronal qui permet d'ajouter un conditionnement spécifique à des images générées par Stable Diffusion à partir de texte. Les ControlNet utilisent une image de référence pour conditionner la génération. L'image passe un préprocesseur (détection de contours, de profondeur, de pose, etc.) et sert alors de guide à la génération. Cela permet par exemple de conserver la composition de l'image de référence dans les générations^[31].

Exemples de ControlNet (liste non exhaustive) :

Détection de contours : Filtre de Canny
Détection de la position d'un corps humain : Pose^[32]
Détection de la profondeur de champ : Depth^[33]
Détection des lignes d'un dessin : Lineart

Certains modèles sont entraînés pour améliorer la netteté^[34] ou coloriser^[35] des images.

ControlNet se sert de couches spéciales, appelées convolutions zéro, qui commencent sans influence sur l'image et progressent doucement, évitant d'introduire des erreurs pendant l'amélioration du modèle^[30].

Des modèles ont été entraînés pour les diverses versions de Stable Diffusion (1.4, 1.5, 2.1, SDXL).

Remove ads

Poursuites en justice

En janvier 2023, trois artistes — Sarah Andersen, Kelly McKernan et Karla Ortiz — intentent une action en justice contre Stability AI, Midjourney et DeviantArt, créateurs des générateurs d'art Stable Diffusion, Midjourney et DreamUp, affirmant que ces sociétés avaient bafoué les droits de « millions d'artistes » en entraînant leurs outils d'intelligence artificielle sur cinq milliards d'images extraites du web « sans le consentement des artistes créateurs »^[36].

Le juge de district américain William Orrick III (en) rejette certaines des revendications de l'action collective, y compris toutes les allégations dirigées contre Midjourney et DeviantArt. Il indique que les artistes peuvent amender leur plainte contre les deux entreprises, dont les systèmes utilisent la technologie de texte à image Stable Diffusion de Stability.

Le juge rejette intégralement les revendications de violation du droit d'auteur de Kelly McKernan et Karla Ortiz et autorisé Sarah Andersen à poursuivre sa principale allégation selon laquelle l'utilisation présumée de son travail par Stability pour entraîner Stable Diffusion enfreint son droit d'auteur^[37].

Notes et références

Loading content...

Articles connexes

Loading content...

Liens externes

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads