Rejoignez-nous à New York le 5 juin pour collaborer avec des dirigeants afin d’explorer des moyens complets d’auditer les modèles d’IA en termes de biais, de performances et de conformité éthique dans diverses organisations. Découvrez comment vous pouvez y assister ici.
Alors que la concurrence dans l’IA générative s’oriente vers des modèles multimodaux, mort a publié un aperçu de ce qui pourrait être sa réponse aux modèles publiés par Frontier Labs. caméléonsa nouvelle gamme de modèles, est conçue pour être multimédia plutôt que pour assembler des composants de différentes manières.
Bien que Meta n’ait pas encore publié les modèles, ses expériences rapportées montrent que Chameleon atteint des performances de pointe sur diverses tâches, notamment l’annotation d’images et la réponse visuelle aux questions (VQA), tout en restant compétitif sur les tâches contenant uniquement du texte.
L’architecture Chameleon peut ouvrir de nouvelles applications d’IA qui nécessitent une compréhension approfondie des informations visuelles et textuelles.
Modèles multimodaux d’intégration précoce
Une manière courante de créer des modèles multimodaux de base consiste à regrouper des modèles qui ont été formés sur différentes modalités. Cette approche est appelée « fusion retardée », dans laquelle le système d’IA reçoit différentes modalités, les code avec des modèles séparés, puis combine les codages pour faire des inférences. Bien que la fusion retardée fonctionne bien, elle limite la capacité des modèles à intégrer des informations entre modalités et à créer des séquences d’images et de texte qui se chevauchent.
événement VB
Visite d’impact de l’IA : audit de l’IA
Demander une invitation
Chameleon utilise une « première architecture multimédia basée sur la fusion », ce qui signifie qu’il a été conçu dès le départ pour apprendre d’un mélange superposé d’images, de texte, de code et d’autres modalités. Les caméléons transforment les images en symboles discrets, tout comme les modèles linguistiques le font avec les mots. Il utilise également un vocabulaire standardisé composé de symboles textuels, de codes et d’images. Cela permet d’appliquer la même structure de transformateur aux séquences contenant des jetons d’image et de texte.
Selon les chercheurs, le modèle le plus similaire à Chameleon est Google Gemini, qui utilise également une approche d’intégration précoce basée sur des jetons. Cependant, Gemini utilise des décodeurs d’images distincts dans la phase de génération, tandis que Chameleon est un modèle de bout en bout qui traite et génère des jetons.
« L’espace de code unifié permet à Chameleon de raisonner et de générer de manière transparente des séquences de texte et d’images qui se chevauchent, sans avoir besoin de composants spécifiques à la méthode », ont écrit les chercheurs.
Bien que l’intégration précoce soit très attrayante, elle présente des défis importants lors de la formation et de la mise à l’échelle du modèle. Pour surmonter ces défis, les chercheurs ont utilisé une série de modifications architecturales et de techniques de formation. Dans leur article, ils partagent des détails sur différentes expériences et leurs effets sur le modèle.
Chameleon est formé en deux étapes, avec un ensemble de données contenant 4,4 billions de symboles textuels, des paires image-texte et des séquences de texte et d’images qui se chevauchent. Les chercheurs ont formé une version de Chameleon comportant 7 milliards et 34 milliards de paramètres sur plus de 5 millions d’heures de GPU Nvidia A100 de 80 Go.
Caméléon en action
Selon les expériences rapportées dans l’article, Chameleon peut effectuer une variété de tâches textuelles et multimédias. En termes de réponse visuelle aux questions (VQA) et de références de sous-titrage d’images, le Chameleon-34B atteint des performances de pointe, surpassant des modèles tels que Flamingo, IDEFICS et Lava-1.5.
Selon les chercheurs, Chameleon équivaut aux performances d’autres modèles avec « beaucoup moins d’exemples de formation en contexte et sur des modèles de plus petite taille, à la fois dans les évaluations de modèles pré-entraînés et affinés ».
L’un des inconvénients du multimédia est la réduction des performances sur les requêtes à méthode unique. Par exemple, les modèles de langage visuel ont tendance à avoir des performances inférieures sur les invites contenant uniquement du texte. Mais le Chameleon reste compétitif sur les tests de référence textuels, correspondant à des modèles comme le Mixtral 8x7B et le Gemini-Pro sur les tâches de raisonnement logique et de compréhension écrite.
Il est intéressant de noter que le logiciel Chameleon peut libérer de nouvelles capacités de raisonnement et de génération mixtes, en particulier lorsque les invites anticipent des réponses mixtes avec du texte et des images qui se chevauchent. Des expériences avec des réponses évaluées par des humains montrent que les utilisateurs préfèrent généralement les documents multimédia générés par Chameleon.
La semaine dernière, OpenAI et Google ont dévoilé de nouveaux modèles offrant de riches expériences multimédias. Cependant, ils n’ont pas révélé beaucoup de détails sur les modèles. Si Meta continue de suivre son propre manuel et de publier des poids pour Chameleon, il pourrait devenir une alternative ouverte aux modèles privés.
Les premières fusions pourraient également inspirer de nouvelles orientations pour la recherche sur des modèles plus avancés, d’autant plus que davantage de modalités sont ajoutées au mélange. Par exemple, les startups de robotique expérimentent déjà l’intégration de modèles de langage dans les systèmes de contrôle des robots. Il sera intéressant de voir comment une fusion précoce peut également améliorer les modèles de base de la robotique.
« Le Caméléon représente une étape importante vers la réalisation de la vision de modèles de fondation unifiés capables de penser de manière flexible et de créer du contenu multimédia », ont écrit les chercheurs.