Meta annonce Make-A-Video, qui génère une vidéo à partir de texte

Image fixe d'une vidéo générée par l'IA d'un ours dessinant un portrait.
Zoom / Image fixe d’une vidéo générée par l’IA d’un ours dessinant un portrait.

Annoncé mort aujourd’hui Faire une vidéoest un générateur vidéo alimenté par l’IA qui peut créer un nouveau contenu vidéo à partir d’invites de texte ou d’image, similaire aux outils de photomontage existants tels que DALL-E Et le propagation stable. Il peut également créer des variantes de vidéos existantes, bien qu’il ne soit pas encore disponible pour une utilisation générale.

Sur la page d’annonces Make-A-Video, Meta montre des exemples de vidéos réalisées à partir de texte, notamment « Young couple walking in toying rain » et « Teddy bear paints a picture ». Il présente également la capacité de Make-A-Video à capturer et à animer une image source fixe. Par exemple, une image fixe d’une tortue de mer, une fois traitée par un modèle d’IA, peut sembler nager.

La technologie clé derrière Make-A-Video – et pourquoi elle est arrivée plus tôt quelques spécialistes Attendu – il s’appuie sur les travaux existants avec la synthèse texte-image utilisée avec des générateurs d’images tels que DALL-E d’OpenAI. En juillet, Meta a annoncé son modèle d’IA pour la conversion de texte en image appelé faire une scène.

Au lieu de former le modèle Make-A-Video sur des données vidéo étiquetées (par exemple, des descriptions annotées des actions décrites), Meta a plutôt pris les données de synthèse d’images (images fixes formées avec légendes) et appliqué les données de formation vidéo non étiquetées afin que le modèle a appris à sentir À l’endroit où une invite de texte ou d’image peut exister dans le temps et l’espace. Ensuite, il peut prédire ce qui vient après l’image et afficher la scène en mouvement pendant une courte période.

Livres morts dans papiers blanc. « Le réseau spatio-temporel étendu comprend de nouvelles unités d’intérêt qui apprennent la dynamique temporelle du monde à partir d’un ensemble de clips vidéo. »

Meta n’a pas annoncé comment et quand Make-A-Video pourrait devenir accessible au public ou qui peut y accéder. Le méta-fichier enregistre Inscrivez-vous depuis Les gens peuvent le remplir s’ils souhaitent l’essayer à l’avenir.

Meta reconnaît que la possibilité de créer des vidéos réalistes à la demande présente certains risques sociaux. Au bas de la page publicitaire, Meta indique que tout le contenu vidéo généré par l’IA de Make-A-Video contient un filigrane pour « aider à garantir que les téléspectateurs savent que la vidéo a été générée par l’IA et non une vidéo capturée ».

si Date est une preuve, concurrent Des modèles de texte en vidéo open source peuvent suivre (certains, tels que CogVidéoexiste déjà), ce qui pourrait rendre inutile la protection des méta filigranes.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *