GEN AI Fusion d’ images

Partant d’une image de deux articles, comment fusionner leurs design?

.PNG, .JPEG, .TIFF, .PSD…

le Besoin Métier

Permettre de mettre au point des design en fusionnant de produits ou objets existants pour créer des rencontres/assemblages innovants.

Marier différents univers de marques

Accélérer le process de développement produit en aidant les créateurs à construire des modèles esthétiques

la Solution

Les solutions pour générer des images en fusionnant plusieurs concepts sont nombreuses. En voici quelques-unes que nous avons décidé d’explorer:
1
MODULE : Entraînement d’adapteurs

Nous entraînons, avec nos données, un module neuronal (LoRA) que nous venons « plugger » sur un modèle classique de génération d’images (Stable Diffusion)

2
MODULE : Image prompting

Au lieu de générer des images en fournissant un prompt texte du style: « un sac de luxe »

Nous générons des images en fournissant des images comme prompt

3
MODULE : Fusion d’encodages

Cette dernière approche vise à encoder en vecteurs les images à fusionner. Une moyenne des vecteurs est ensuite réalisé. Puis un décodage du vecteur moyen nous fournit l’image moyenne.

les Difficultés

  • Difficulté d’évaluation: Estimer la qualité d’une fusion d’image est difficile à mesurer. Nous avons donc recours à de l’évaluation humaine sur des échantillons de taille modérés pour hiérarchiser les performances des différentes approches.
  • Des images générées avec quelques aberrations: les derniers modèles d’IA permettant de générer des images souffrent encore de certaines aberrations sur les détails de certaines images (inscriptions étranges à la place de chiffres sur le cadran de montres, montres avec 4 aiguilles, …).
  • Coût d’affinage/inférence: Finetuner un modèle et générer des images ne peut raisonnablement se faire qu’en utilisant des cartes graphiques proposées par les principaux cloud provider, ce qui limite l’utilisation de la solution pour des raisons de coût.

Stack et choix techniques

  • Stack technique :

    • Python
    • Pytorch (pour les modèles IA)
    • Environnement HuggingFace
    • Streamlit & CSS (pour la web app et l’interface graphique)
    • Docker (pour la conteneurisation)
    • Google Cloud avec notamment Cloud Run/Vertex AI pour le déploiement et Cloud Storage pour le stockage
    •  

    « Modeles et adapteurs » :

    • Stable Diffusion (XL)
    • LoRA
    • IP-adapters
R
O
I

TEMPS -ARGENT

Possibilité de réaliser un grand nombre de design en quelques minutes vs plusieurs semaines auparavant

CREATIVITÉ

Avoir un outil permettant d’explorer le mariage entre plusieurs concepts plus ou moins éloignés (plusieurs sacs d’une même marque, mariage d’une montre avec un sac d’une autre marque)

UNIVERS DE MARQUE
L’entrainement de modèle sur les produits d’une collection permet d’inventer de nouveaux designs tout en respectant l’univers d’une marque