sheon a écrit:Moi, ce qui me fascine, c'est le fait que faire jouer deux fois de suite les mêmes IA l'une contre l'autre ne résulte pas en exactement la même partie.
Stockfish n'est pas une IA.
Et justement, c'est parce que AlphaZero est une IA qu'il ne jouera pas deux fois la même partie, il apprend de la précédente partie aussi.
C'est donc le fait de ne pas être une IA qui devrait faire répéter.
Une chose intéressante encore, c'est que, depuis AlphaZero actuel a dépassé son apprentissage de 4h et atteint des niveaux où il bat AlphaZero Stockfish (pour simplifier on accole le nom de l'adversaire qu'il a battu comme ça on voit de quel niveau d'apprentissage on parle) à plat de couture..
Et c'est intéressant dans le fait que maintenant statistiquement dans les affrontements contre lui même il utilise des ouvertures différentes de celles qu'il utilisait quand il était AlphaZero Stockfish ..:
il utilise maintenant beaucoup le gambit dame et l'ouverture anglaise, après avoir eu son époque ouverture française (AlphaZero Stockfish se situe vers la fin de son époque ouverture française, quand il commence à l'abandonner)
De là à dont les meilleures ouvertures du jeu... il y a un pas qu'on franchira peut-être jusqu'à temps qu'il découvre peut-être autre chose dans les niveaux stratosphériques qu'il atteint.
Pour situer un peu AlphaZero en bonus.
AlphaGo Lee (la version de connaissance qui a battu Lee Sedol, et que Lee Sedol qualifiait d'expérience spirituelle) a été battue à plat de couture par AlphaGo Master (un AlphaGo qui a continué à apprendre) par 100-0. Une version de connaissance intermédiaire avait d'ailleurs battu 100 joueurs humains mondiaux 100-0 début 2017.
Mais mieux, AlphaZero (qui au contraire d'AlphaGo apprend de zéro d'où son nom quand AlphaGo avait appris d'abord à partir de match de champions humains avant de s'autoapprendre à partir de là) a atteint le niveau d'AlphaGo Lee en moins de 72h. Et le niveau d'AlphaGo Master en moins de 15 jours.
Et comme AlphaZero est plus généraliste, ils l'ont ensuite lancé sur le jeu d'échec (et aussi le shogi)

Et alors que AlphaGo tournait sur des centaines (je dis ça de mémoire, je ne sais plus exactement) de carte graphique, puis plus récemment sur une soixantaines de circuit spécialisé, AlphaZero ne tourne que sur 4 circuits spécialisés (des circuits optimisés pour ces calculs de neurones conçus spécialement par DeepMind et fabriqués spécialement pour la société et sa société soeur Google à quelques milliers d'exemplaires). Bon ça n'est pas tout à fait vrai puisque pour l'autoapprentissage, ce sont 500 circuits spécialisés qui ont fonctionné (mais c'est toujours extrêmement moins que le nombre de cartes graphiques ou de circuits spécialisés qui fonctionnaient en apprentissage quand c'était AlphaGo). Mais quand il fait ses matchs de compétitions, il est donc réduit à ces 4 circuits (ce qui ne veut pas dire qu'il y a moins de neurones que quand il y en a 500, juste que ça va être traité moins vite, mais ils estiment que la machine a moins besoin d'apprendre vite en compétition c'est pour ça)
Hugues