Le nouveau modèle d’IA de « diffusion vidéo stable » peut animer n’importe quelle image fixe – Ars Technica

Il existe encore des exemples d'images animées utilisant la diffusion vidéo stable par Stability AI.
Agrandir / Il existe encore des exemples d’images animées utilisant la diffusion vidéo stable par Stability AI.

IA de stabilité

Mardi, l’IA s’est stabilisée Libéré Stable Video Diffusion, un nouvel outil de recherche gratuit basé sur l’IA qui peut transformer n’importe quelle image fixe en une courte vidéo, avec des résultats mitigés. Il s’agit d’un aperçu ouvert de deux modèles d’IA qui utilisent une technologie appelée image vers vidéo et peuvent s’exécuter localement sur une machine dotée d’un GPU Nvidia.

L’année dernière, Stability AI a fait des vagues avec la sortie de Stable Diffusion, un modèle de synthèse d’images « à poids ouvert » qui a lancé une vague de synthèse d’images ouverte et a inspiré une large communauté d’amateurs qui ont construit la technologie avec leurs propres améliorations personnalisées. Paramètre. Stability souhaite désormais faire de même avec la composition vidéo AI, même si la technologie en est encore à ses balbutiements.

Actuellement, Stable Video Diffusion se compose de deux modèles : l’un qui peut produire une synthèse image-vidéo à 14 images (appelé « SVD ») et l’autre qui génère 25 images (appelé « SVD-XT »). Il peut fonctionner à des vitesses variables de 3 à 30 images par seconde et produit de courtes vidéos MP4 (généralement d’une durée de 2 à 4 secondes) à une résolution de 576 x 1024.

Lors de nos tests locaux, la création d’une génération de 14 images a pris environ 30 minutes sur une carte graphique Nvidia RTX 3060, mais les utilisateurs peuvent découvrir des modèles fonctionnant beaucoup plus rapidement sur le cloud grâce à des services tels que Câlins de visage Et clonage (Certains d’entre eux peuvent être payants). Dans nos expériences, l’animation générée maintient généralement une partie de la scène immobile et ajoute des effets de panoramique et de zoom ou de la fumée ou du feu animés. Les personnes sur les photos ne bougent souvent pas, même si nous avons obtenu une photo Getty de Steve Wozniak pour animer un peu.

(Remarque : outre l’image Getty Images de Steve Wozniak, les autres animations de cet article ont été créées à l’aide de DALL-E 3 et animées à l’aide de Stable Video Diffusion.)

Compte tenu de ces limites, la stabilité souligne que le modèle est encore précoce et destiné uniquement à la recherche. « Bien que nous mettions à jour nos modèles avec les derniers développements et que nous nous efforcions d’intégrer vos commentaires, ce modèle n’est pas destiné à des applications réelles ou commerciales à ce stade. Vos idées et commentaires sur la sécurité et la qualité sont importants pour améliorer ce modèle pour sa version finale », a écrit la société sur son site Internet.

Il convient de noter, mais ce n’est peut-être pas surprenant, la prédominance de la vidéo stabilisée Document de recherche Il ne révèle pas la source des ensembles de données d’entraînement pour les modèles, mais indique seulement que l’équipe de recherche a utilisé un « grand ensemble de données vidéo d’environ 600 millions d’échantillons » qu’elle a organisé dans le Large Video Dataset (LVD), qui comprend 580 échantillons. millions de vidéos annotées. Couvrant 212 ans de contenu.

Stable Video Diffusion n’est pas le premier modèle d’IA à proposer ce type de fonctionnalités. Nous avons déjà abordé d’autres méthodes de synthèse vidéo IA, notamment celles de Meta, Google et Adobe. Nous avons également couvert le ModelScope open source et ce que beaucoup considèrent comme le meilleur modèle vidéo d’IA actuellement, le modèle Gen-2 de Runway (Laboratoires Becca est un autre fournisseur de vidéo alimenté par l’IA.) Stability AI indique qu’il travaille également sur un modèle texte-vidéo, qui permettrait de créer de courtes vidéos à l’aide d’invites écrites au lieu d’images.

Poids de source et de propagation d’une vidéo stable Disponible Sur GitHub, un autre moyen simple de le tester localement est de l’exécuter via un fichier Plateforme Pinocchioqui gère facilement les dépendances d’installation et exécute le modèle dans son propre environnement.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *