OpenAI dévoile Sora, une IA qui produit des vidéos accrocheuses

En avril dernier, une startup new-yorkaise appelée Runway AI a dévoilé une technologie qui permet aux gens de créer des vidéos, comme une vache lors d'une fête d'anniversaire ou un chien parlant sur un smartphone, simplement en tapant une phrase dans une case sur un écran d'ordinateur.

Les vidéos de quatre secondes étaient floues, saccadées, déformées et ennuyeuses. Mais c’était un signe clair que les technologies d’IA généreraient des vidéos de plus en plus convaincantes dans les mois et les années à venir.

À peine dix mois plus tard, la startup OpenAI de San Francisco a dévoilé un système similaire qui crée des vidéos qui semblent provenir d'un film hollywoodien. La démonstration comprenait de courtes vidéos – capturées en quelques minutes – de mammouths laineux trottant dans une prairie enneigée, d'un monstre fixant une bougie fondante et d'une scène dans une rue de Tokyo apparemment capturée par une caméra survolant la ville.

OpenAI, la société derrière le chatbot ChatGPT et le générateur d'images fixes DALL-E, fait partie des nombreuses entreprises qui s'efforcent d'améliorer ce type de générateur de vidéo instantanée, notamment des startups comme Runway et des géants de la technologie comme Google et Meta, propriétaire de Facebook et Instagram. Cette technologie peut accélérer le travail des cinéastes expérimentés, tout en remplaçant complètement les artistes numériques moins expérimentés.

Cela peut également devenir un moyen rapide et peu coûteux de créer de la désinformation en ligne, ce qui rend plus difficile la connaissance de la réalité en ligne.

« Je suis absolument terrifié à l'idée que ce genre de chose ait un impact sur une élection très disputée », a déclaré Oren Etzioni, professeur à l'Université de Washington spécialisé en intelligence artificielle. Il est également le fondateur de True Media, une organisation à but non lucratif qui s'efforce d'identifier la désinformation en ligne dans les campagnes politiques.

OpenAI appelle son nouveau système Sora, d'après le mot japonais signifiant ciel. L'équipe à l'origine de la technologie, composée des chercheurs Tim Brooks et Bill Peebles, a choisi ce nom car il « évoque l'idée d'un potentiel créatif illimité ».

Dans une interview, ils ont également déclaré que la société n'avait pas encore rendu public Sora car elle s'efforçait toujours de comprendre les risques du système. Au lieu de cela, OpenAI partage la technologie avec un petit groupe d’universitaires et d’autres chercheurs extérieurs qui constitueront une « équipe rouge », un terme qui fait référence à la recherche de moyens d’en abuser.

« L'intention ici est de donner un aperçu de ce qui se profile à l'horizon, afin que les gens puissent voir les capacités de cette technologie et que nous puissions obtenir des commentaires », a déclaré le Dr Brooks.

OpenAI place déjà des filigranes sur les vidéos produites par le système qui les identifient comme générées par l'IA, mais la société admet qu'ils peuvent être supprimés. Cela peut également être difficile à détecter. (Le New York Times a ajouté des filigranes « Généré par l'IA » aux vidéos contenant cette histoire.)

Le système est un exemple d’IA générative, capable de générer du texte, des images et des sons sur place. Comme d’autres technologies d’IA générative, le système OpenAI apprend en analysant les données numériques – dans ce cas, des vidéos et des légendes décrivant ce que contiennent ces vidéos.

OpenAI a refusé de dire combien de vidéos le système a appris ni d'où elles proviennent, sauf pour dire que la formation comprenait des vidéos accessibles au public et des vidéos sous licence des détenteurs de droits d'auteur. L’entreprise parle peu des données utilisées pour former sa technologie, probablement parce qu’elle souhaite conserver un avantage sur ses concurrents – et elle a été poursuivie à plusieurs reprises pour avoir utilisé du matériel protégé par le droit d’auteur.

(Le New York Times a poursuivi OpenAI et son partenaire Microsoft en décembre, alléguant une violation du droit d'auteur sur le contenu d'actualité lié aux systèmes d'IA.)

Sora crée des vidéos en réponse à de courtes descriptions, telles que « un magnifique monde de récifs coralliens en papier, rempli de poissons colorés et de créatures marines ». Même si les vidéos peuvent être impressionnantes, elles ne sont pas toujours parfaites et peuvent contenir des images étranges et illogiques. Par exemple, le système a récemment généré une vidéo de quelqu'un mangeant un cookie, mais le cookie n'a jamais été plus petit.

DALL-E, Midjourney et d'autres générateurs d'images fixes se sont améliorés si rapidement au cours des dernières années qu'ils produisent désormais des images presque impossibles à distinguer des photographies. Cela rend plus difficile l’identification des informations erronées en ligne, et de nombreux artistes numériques se plaignent du fait qu’il leur est difficile de trouver du travail.

« Nous avons tous ri en 2022 lorsque Midjourney est sorti pour la première fois et a dit : 'Oh, c'est mignon' », a déclaré Reid Southin, l'artiste conceptuel du film basé dans le Michigan. « Maintenant, des gens perdent leur emploi à cause de Midjourney. »

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *