Stability AI, start-up based in London, at 22 août dernier la sortie publique de Stable Diffusion, a model text-to-image similaire à Dall-E 2 d’Open AI ou Imagen de Google. Ce modèle open-source est le fruit d’une collaboration entre Stability AI, RunwayML, des groupes de recherche du center Machine Vision & Learning au LMU de Munich (anciennement laboratoire CompVis à l’Université de Heidelberg), d’EleutherAI et de LAION .
Avant cette sortie publique, Stability AI avait annoncé, 10 août, la mise à disposition de Stable Diffusion, pour un millier de chercheurs, le modèle à grande échelle ayant été testé auparavant par plus de 10 000 bêta-testers via le serveur Discord.
Le système Stable Diffusion
Le modèle lui-même s’appuie sur les travaux de l’équipe de CompVis et Runway pour leur modèle de diffusion latent, qui a été combiné aux informations des modèles de diffusion conditionnelle de Katherine Crowson, développeur principal d’IA générative chez Stability AI , from Dall-E 2 d’Open AI, from Images of Google Brain et d’autres modèles.
L’ensemble de données de base a été formé sur LAION-Aesthetics, a sous-ensemble de LAION 5B, créé avec un nouveau modèle basé sur CLIP here a filtré LAION-5B en fonction de la “beauté” d’une image, en s’appuyant on the notes of the alpha testers of Stable Diffusion. Le modèle a été entraîné sur l’ultracluster d’IA A100 Ezra-1 de 4 000 au cours du mois de juin dernier et sera le premier d’une series de modèles explorant cette approche et d’autres.
Stable Diffusion peut générer des images de 512 × 512 pixels, en quelques secondes, en utilisant environ 6,9 Go de VRAM sur les GPU grand public.
Stability AI a coopéré avec les équipes juridiques, éthiques et technologiques de Hugging
En s’inscrivant à the interface DreamStudio, the utilisateurs obtiennent gratuitoment 200 credits. Ensuite, ils paieront environ 1 euro pour 100 générations.
LAION-Aesthetics, sous-ensemble de LAION 5B
LAION, (Large-scale Artificial Intelligence Open Network), is an organization à but non-lucrative here if women pour mission de mettre les modèles d’apprentissage automatique, les bases de données et le code à la disposition du public. Elle a conçu LAION 5B, an ensemble de données de 5,85 milliards de paires image-texte filtrées basé sur CLIP, 14 fois plus grand que LAION-400M, auparavant le plus grand ensemble de données image-texte ouvertement accessible au monde.
Ensuite, elle a créé LAION-Aesthetics qui réunit plusieurs sous-ensembles de LAION 5B et a servi à la formation de Stable Diffusion.
Une utilization à des fins pornographiques
La clause de non-responsabilité sur l’objectif de l’ensemble de données de LAION 5B rappelle que les données proviennent d’Internet et que l’ensemble n’est pas organisé, l’organisation conseille d’utiliser les liens de démonstration avec prudence et ne peut exclure entièrement la possibilité que du content nuisible soit toujours présent en mode sans échec.
LAION-400M, son prédécesseur, était connu pour contents des textes et des images à connotation pornographique ou raciste. Stability AI a donc développé Safety Classifier, a classificateur de sécurité included par défaut dans le progiciel global Stable Diffusion, pour détecter et bloquer les images offensantes ou indésirables, qui peut être désactivé.
The modèle a été disseminated on the Internet avant sa sortie publique, the a été utilisé par des internautes et notamment dans le forum de discussion 4chan pour générer des images de personnalités nues ou des scènes pornographiques.
DALL-E 2 involves a filter, here l’empêche de générer des images de personnalités publiques, ce qui n’est pas le cas de Stability Diffusion, qui pourrait bien être utilisé pour créer des deepfakes.



