Images par IA : générer une image à partir d'un texte

L’Intelligence Artificielle pour générer des images à partir de texte est l’un des grands sujets de discussion en ce moment, notamment parmi les créateurs de contenus. Créer des images par IA via une simple demande textuelle ? Le bonheur des blogueurs et des créatifs, le cauchemar des banques d’images payantes et de certains artistes ^^

Ce n’est d’ailleurs pas vraiment nouveau, ce genre de service existe depuis plusieurs années, mais ce qui change depuis quelques mois c’est la qualité, la précision des résultats finaux et leurs accès au plus grand nombre. Des sites qui travaillaient « dans l’ombre » s’ouvrent enfin au grand public qui peut se rendre compte de l’évolution que le deep learning a connue récemment. Les outils les plus puissants proposent non seulement une réponse très pointue et rapide à quasi n’importe quelle demande, mais permettent aussi de préciser le type de rendu désiré (réaliste, abstrait, photo …), la résolution, etc.

EDIT : beaucoup de choses ont bougé depuis la première version de cet article en 2022, et pas seulement en termes de qualité de ce que les IA peuvent dorénavant proposer. Voici quelques mises à jour et de nouveaux outils arrivés sur le marché depuis l’époque.

générer une image avec Stable Diffusion — Source : Stable Diffusion

Voici une liste de quelques outils à tester. ~~La plupart vous demanderont de vous inscrire sur une liste d’attente, les invitations étant envoyées petit à petit au fil des semaines.~~ Tous sont maintenant ouverts au public, la plupart étant sont même devenus payants (logique vu les ressources que cela utilise). Mais tous méritent d’être testés à un moment ou un autre. Ne serait-ce que parce que c’est fun de lâcher la bride à votre imagination.

12 outils d’images par IA : gratuits et payants

Dall-E 2

L’outil d’Open AI attire toute l’attention depuis quelques semaines, sa version bêta est arrivée en juillet. Une fois invité, vous receviez des crédits pour tester le service, puis chaque mois vous aviez droit à quelques nouveaux essais gratuits. Si cela ne vous suffit pas, vous devrez payer, mais les tarifs sont honnêtes (pour l’instant). Korben en a fait un article complet avec de nombreux exemples de résultats obtenus, je vous redirige vers son article du test Dall-E 2.

Il est passé à la version Dall-E 3 courant 2023, conçue nativement et intégrée pour les utilisateurs de la version payante ChatGPT Plus. Cette 3e version propose beaucoup plus de nuances que la précédente, et permet d’utiliser ChatGPT pour que l’IA elle-même crée les meilleurs prompts pour vos images.

Parmi les options disponibles : l’édition du résultat obtenu, s’inspirer d’une image fournie comme base pour créer des variations, etc. Pour donner une idée de l’évolution en seulement une année, on peut comparer entre ses versions 1 et 2 et imaginer ce que cela va donner bientôt :

Craiyon

Connu auparavant sous le nom Dall-E Mini, Craiyon était un outil gratuit. Il est dorénavant passé à un petit pricing, dés 5€/mois, sinon vous aurez un watermark sur l’image. Les images générées sont clairement moins sympas que sur Dall-E 2, sont de petites tailles et vous devrez attendre plus ou moins longtemps les résultats (selon la charge du moment). Pas fou du tout, mais ça a le mérite d’exister.

Stable Diffusion

Le service de Stability.ia, open source, vient lui aussi d’être ouvert au public (fin août 2022). Il génère pour l’instant des images carrées de 512 pixels de côté en quelques secondes. Le modèle d’IA s’entraine déjà à grande échelle avec plus de 10 000 testeurs et chercheurs qui lui font créer plus de 1.7 millions d’images chaque jour. Et cela ne fera que s’accélérer avec l’ouverture au public. Dés 2023 le projet s’est développé vers une version payante (9€/mois) qui intègre leur modèle XL. Celui-ci permet de générer des images bien plus précises et cela très rapidement. La composition des créations et les êtres humains ont subit un boost assez incroyables et de nouveaux outils sont disponibles : négative prompt, ratio …

Pour la recherche « A hobbit house in a grass field hill, a sunny day, ray of sunlight, volumetric, depth, of field, hypersharp, hyperdetailed, by moebius, artstation, cgsociety, 8 k » on obtient ceci (en 2022) :

Les purs fans de Tolkien trouveront sans doute des choses à redire sur certains aspects, mais c’est plutôt proche non ?

Tout un écosystème est en cours de développement autour du projet. Notamment pour aborder les aspects de décentralisation, de création audio, d’applications en biologie ou d’éthique. De plus leur licence autorise l’utilisation des images par IA dans un but commercial ou non.

Jasper Art pour générer des images par IA

Jasper Art est le premier générateur d’images IA accessible au public alimenté par la technologie Dall-E 2. Point positif de Jasper ? Ses images sont utilisables commercialement, la licence a été mise à jour début septembre. Soucis : pour accéder au service, il faut s’abonner à l’ensemble de leurs produits (générateur d’articles, etc.). Il n’est pas possible de ne prendre qu’un abonnement ciblé donc ce n’est pas forcément donné (40$/mois minimum) si vous n’avez besoin de ne générer que quelques dizaines d’images.

Nightcafé

Nightcafé est un outil gratuit jusqu’à 5 créations quotidiennes (5 crédits). Il est basé sur les modèles d’algorithmes de machine learning VQGAN (partie génération d’image) et CLIP (qui juge si l’image correspond à la commande). Puis sont venus s’ajouter Stable Diffusion, DALL-E 2, CLIP-Guided Diffusion et Neural Style Transfer Vous pouvez créer des images en lot, proposer plusieurs styles différents et augmenter la taille de l’image contre des crédits. Le site propose même une option permettant de faire imprimer vos créations sous forme de tableaux. Parce que vous êtes le futur Pablo PicIAsso pas vrai ? (ce jeu de mot est dégueulasse je sais).

Des images par IA avec Midjourney

Midjourney est un laboratoire de recherche indépendant, au fil des mois il est devenu LA référence des images par IA. Avec à sa tête un ancien chercheur de la NASA, et des consultants de renoms comme Philip Rosedale (fondateur de Second Life) ou Net Friedman (CEO de Github). Les résultats étaient déjà bluffants en 2022, surtout sur les visages humains, là où d’autres étaient à la peine (à voir ici).

Après une open bêta, il a été ouvert aux salons Discord jusqu’à 30k membres, puis à tous. Pour l’utiliser il vous faut donc posséder un compte sur Discord et payer l’abonnement mensuel, entre 10$ et 120$/mois selon votre besoin. Pour 10$/mois (ou 96$ pour un an) vous aurez droit à 3h30 de temps de GPU, soit environ 200 images (selon leur site).

Imagen de Google

Imagen c’est le service proposé par la firme américaine au sein de son initiative Google Brain. Le service est annoncé comme doté d’un degré de photoréalisme encore jamais atteint. De plus selon leurs analyses : « les grands modèles de langage génériques, pré-entraînés sur des corpus textuels, sont étonnamment efficaces pour encoder du texte pour la synthèse d’images« . Pas encore ouvert au public (s’il l’est un jour) donc il faudra être patient.

Plugin WordPress Imajinn

Oui un plugin pour WordPress existe déjà, mais seulement en version bêta pour l’instant. Imajinn va se comporter comme un bloc Gutenberg classique dans votre éditeur d’article. Une fois sélectionné il suffit d’ajouter le texte de l’image voulue, sélectionner le format et vous recevez instantanément 4 propositions. Il suffit de sélectionner celle qui vous plait le plus et le tour est joué !

Les tarifs ne sont pas encore arrêtés, mais ça devrait tourner entre 3 et 10 centimes par image. En vous enregistrant pour la version bêta, vous recevez des crédits gratuits donc n’hésitez pas 😉 Courant 2023 la grille tarifaire a été affinée : les 40 premières images (10 générations d’images) sont offertes, ensuite il faudra payer 3.25$/mois pour 25 crédits ou 10$/mois pour 100 crédits. Si ajouter des fonctionnalités à votre blog vous intéresse, jetez un oeil sur mon article dédié aux plugins de synthèse vocale pour WordPress.

MyEdit

Outil gratuit (il faudra juste créer un compte), MyEdit est proposé par CyberLink. Il permet non seulement la création d’images, mais aussi d’avatars et de portrait photo, d’ajouter des filtres … ainsi qu’un éditeur audio. L’interface est plutôt simple à prendre en main et permet une grande personnalisation (style, édition, plusieurs formats, prévisualisation …). Limité à 5 essais par jour par contre.

Canva AI

Propulsé par Stable Diffusion le générateur d’images Canva AI offre jusqu’à 50 images gratuites. Si cela ne suffit pas, le tarif est assez classique à savoir 10$/mois pour 500 images. Ce plan vient avec une suite d’outils comme une banque d’images pro, un agrandisseur d’images, la traduction de texte, le texte-to-video, 1To d’espace de stockage … Par contre le résultat sur les images par IA réalistes est moins bon que d’autres services.

Images par IA : Deep AI

Un vieux de la vieille qui existe depuis 2016. Il propose jusqu’à 500 images en version gratuite et la version payante est à 5$ par bloc de 500 images supplémentaires. Le site de Deep AI dispose aussi d’autres IA comme un chatbot, un moteur de questions web, du jeu de rôle, etc.

Bing AI Image Creator

La réponse de Microsoft dans la course à la génération d’images par intelligence artificielle. Il vous faudra un compte sur la plateforme et les résultats maison sont optimisés par Dall-E 3. Il offre jusqu’à 100 « boosts » (pour combien de temps ?) soit 100 images, ensuite le temps pour générer les images va s’accroitre de plusieurs minutes. La jauge de boost est remplie régulièrement.

D’autres outils existants : Runway AI, Imgcreator AI, Dream Studio, Starry AI, Stylar AI, Wombo Dream, Firefly (Adobe Photoshop), Generative IA …

Images par IA : Lexica (bonus)

Lexica n’est pas une IA de génération d’images, il s’agit plutôt d’un moteur de recherche qui propose plus de 5 millions de résultats (pour le moment en provenance de Stable Diffusion). En gros ça va vous aider si vous avez seulement 1 ou 2 mots clés pour votre image, mais pas d’idée pour créer quelque chose de très précis. Ou que les résultats obtenus avec vos seuls 1/2 mots ne sont pas assez parlant pour vous.

Si par exemple vous avez besoin d’une image d’Albert Einstein, mais que vous n’avez pas d’idée arrêtée, Lexica vous en proposera. Et ce seront probablement des choses auxquelles vous n’auriez pas pensé vous-mêmes. Einstein en train de boire du rakia avec ses amis, Einstein tenant un atome dans ses mains, portrait d’Albert Einstein habillé en génie de chez Disney. Ou encore la représentation d’Einstein et de sa théorie de la relativité façon timbre japonais.

Alors tout n’est, clairement, pas encore parfait. Les visages humains ou les demandes avec du texte intégré dans l’image ont encore pas mal de ratés. Le français est encore mal (voire pas du tout) supporté, il existe des biais, etc. Gardez aussi en tête que plus vous utilisez de mots pour préciser ce que vous cherchez, et plus les images proposées devraient être adaptées.

Nous sommes à des années-lumière de ce qui se faisait il y a seulement 2 ou 3 ans, et la génération d’images par IA va continuer à évoluer de plus en plus vite. Les possibilités vont être affolantes, dans tous les sens du terme. Plus de détails, plus de personnalisations, plus de complexité, d’inspiration, de réalisme … Le temps où l’on pouvait se fier à ce que nos yeux voyaient est définitivement révolu. En attendant, amusez-vous bien avec vos tests ! Lâchez-vous 😉

Images par IA : 12 générateurs à tester en 2024