Son groupe a décidé de le découvrir. Ils ont construit la nouvelle version diversifiée d’AlphaZero, qui comprend plusieurs systèmes d’IA formés de manière indépendante et pour diverses situations. Zahavi a déclaré que l'algorithme régissant l'ensemble du système agit comme une sorte d'entremetteur virtuel : il est conçu pour déterminer quel agent a les meilleures chances de succès lorsqu'il est temps d'agir. Lui et ses collègues ont également codé un « bonus de diversité » – une récompense pour le système chaque fois qu’il sélectionne des stratégies parmi un large éventail d’options.
Lorsque le nouveau système a été lancé pour jouer à ses propres jeux, l'équipe a remarqué une grande diversité. Les acteurs diversifiés de l’IA ont expérimenté de nouvelles ouvertures efficaces et des décisions nouvelles – mais judicieuses – concernant des stratégies spécifiques, telles que quand et où s’arrêter. Dans la plupart des matchs, il a vaincu l'Alpha Zero original. L’équipe a également découvert que la variante pouvait résoudre deux fois plus d’énigmes difficiles que l’original et pouvait résoudre plus de la moitié du catalogue total de puzzles Penrose.
« L’idée est qu’au lieu de trouver une solution ou une politique, cela mettrait en échec n’importe quel acteur ici. [it uses] « L'idée de diversité créative », a déclaré Cooley.
Avec un accès à davantage de jeux différents, l'AlphaZero polyvalent dispose de plus d'options pour faire face aux situations difficiles lorsqu'elles surviennent, a déclaré Zahavi. « Si vous pouvez contrôler le type de jeux que vous voyez, vous contrôlez essentiellement la manière dont ils circulent », a-t-il déclaré. Ces étranges récompenses intrinsèques (et les mouvements qui leur sont associés) peuvent devenir des atouts pour divers comportements. Le système peut alors apprendre à évaluer différentes approches et voir quand elles ont été les plus efficaces. « Nous avons constaté que ce groupe de clients peut effectivement parvenir à un accord sur ces situations. »
Il est important de noter que les conséquences s’étendent bien au-delà des échecs.
La créativité dans la vraie vie
Cooley a déclaré que l'approche diversifiée pourrait aider n'importe quel système d'IA, pas seulement ceux basés sur l'apprentissage par renforcement. La variété a longtemps été utilisée pour entraîner des systèmes physiques, notamment A Robot à six pattes Ce qui lui a permis d'explorer différents types de mouvements, avant de la « blesser » délibérément, lui permettant ainsi de continuer à bouger en utilisant certaines des techniques qu'il avait développées auparavant. « Nous essayions simplement de trouver des solutions différentes de toutes les solutions précédentes que nous avions trouvées jusqu'à présent. » Plus récemment, il a également collaboré avec des chercheurs pour utiliser la diversité afin d'identifier des candidats prometteurs pour de nouveaux médicaments et développer des stratégies de négociation d'actions efficaces.
« L'objectif est de générer un large éventail de milliers de solutions différentes, chaque solution étant complètement différente de la suivante », a déclaré Cooley. Ainsi – tout comme le joueur d'échecs diversifié a appris à le faire – pour chaque type de problème, le système tout entier peut choisir la meilleure solution possible. Il a déclaré que le système d'IA de Zahavi montre clairement comment « la recherche de stratégies diverses aide à sortir des sentiers battus et à trouver des solutions ».
Zahavi estime que pour que les systèmes d’IA pensent de manière créative, les chercheurs doivent simplement les amener à envisager davantage d’options. Cette hypothèse suggère une étrange relation entre les humains et les machines : peut-être que l’intelligence est simplement une question de puissance de calcul. Pour un système d’IA, la créativité peut se résumer à la capacité de penser et de choisir parmi un ensemble d’options suffisamment large. À mesure que le système reçoit des récompenses pour le choix d’une variété de stratégies optimales, ce type de résolution créative de problèmes est renforcé et renforcé. En fin de compte, en théorie, cela pourrait imiter n’importe quel type de stratégie de résolution de problèmes reconnue comme une stratégie créative chez l’humain. La créativité deviendra un problème mathématique.
Limhicharat a noté qu’il est peu probable qu’un système d’IA diversifié résolve complètement le problème plus large de la généralisation de l’apprentissage automatique. Mais c'est un pas dans la bonne direction. « Cela atténue l'une des lacunes », a-t-elle déclaré.
Plus concrètement, les découvertes de Zahavi concordent avec les efforts récents montrant comment la coopération peut conduire à de meilleures performances dans des tâches difficiles entre humains. La plupart des chansons à succès du Billboard 100 ont été écrites par des équipes d'auteurs-compositeurs, par exemple, plutôt que par des individus. Il y a encore place à l'amélioration. L’approche diversifiée est actuellement coûteuse en termes de calcul, car elle doit prendre en compte beaucoup plus de probabilités qu’un système classique. Zahavi n’est pas non plus convaincu que même l’AlphaZero polyvalent capture toute la gamme des possibilités.
« Toujours [think] « Il est possible de trouver différentes solutions. » « Il n'est pas clair pour moi qu'étant donné toutes les données disponibles dans le monde, il existe [only] Une réponse pour chaque question.
Histoire originale Reproduit avec la permission de Magazine Quanta, Une publication éditorialement indépendante de Fondation Simmons Sa mission est d'améliorer la compréhension publique de la science en couvrant les développements et les tendances de la recherche en mathématiques, en sciences physiques et en sciences de la vie.
« Amateur de musique. Joueur. Alcooliste. Lecteur professionnel. Spécialiste du Web. »