Untitled Document

Intelligence Artificielle - l'algorithme du Q-Learning.

Ne me considérant pas comme un expert en intelligence artificielle, mon propos n'est pas de rentrer dans le détail du fonctionnement de l'algorithme de Q-Learning, ni encore moins dans la preuve théorique de sa convergence (que l'on doit, si ma mémoire ne me fait pas défaut à J.C.Watkins). Cette page est donc volontairement simple ... Pour ceux qui cherchent à approfondir la question, rendez-vous à la rubrique Liens.

En quelque mots, disons que le Q-Learning est un algorithme d'apprentissage par renforcement non supervisé. En clair, cela signifie qu'il s'agit d'une technique informatique visant à créer un "agent logiciel" capable de contrôler de façon (quasi) optimale un certain système (dépendant du problème que l'on cherche à résoudre ...). Son atout principal est sa facilité d'implémentation (le coeur de la méthode n'excède pas 5 lignes de code !!! ) qui n'a hélas d'égal qu'avec la difficulté de son paramétrage ...

Les champs d'applications de cette méthode sont assez vastes, mais on peut dire que les pionniers en termes d'utilisation sont les roboticiens, désireux d'apprendre à leurs créatures artificielles à se comporter de manière "intelligente" dans leur environnement.

L'idée de l'apprentissage par renforcement, est, dans mon esprit, proche de la manière dont les jeunes enfants apprennent à parler. Il s'agit d'une suite d'expérimentations plus ou moins hasardeuses, engendrant une récompense ... variable, qui est mémorisée !!!. L'enjeu étant de découvrir, parmi toutes les tentatives effectuées, lesquelles sont les plus ... gratifiantes.

Illustration : Bébé commence à gazouiller. Tant qu'il pratique un charabia monosyllabique inintelligible (areuh, areuh, etc ...), ses parents ne présentent pas de réaction exacerbée. Tout au plus sont ils satisfaits que l'organe vocal de leur enfant fonctionne correctement (sauf vers 3h du matin, mais là c'est une autre histoire ...). La récompense du bébé est donc relativement faible (essais infructueux). Puis arrive le jour fatidique où bébé arrive à dire "papa", ou "maman", enclenchant une formidable réaction de joie (...) chez ses parents qui se manifestent en s'extasiant sur leur petit génie de rejeton (essai concluant, grosse récompense). L'enfant mémorise ce résultat, ce qui "renforce" sa connaissance du langage, et poursuit son apprentissage ...Vers la fin de ce dernier, l'enfant aura progressivement substitué une stratégie "aléatoire" (j'essaie d'enchainer des phonèmes au petit bonheur la chance...) par une stratégie de "contrôle" (je sais associer correctement les phonèmes pour bâtir certains mots ...). Même si cette vision des choses est infiniment trop simpliste (l'acquisition du langage me paraît être bien plus que de l'apprentissage par renforcement ...), elle permet d'illustrer assez grossièrement le principe de fonctionnement du Q-Learning.

On parle d'apprentissage non-supervisé car on ne fournit pas à l'algorithme une masse de données (souvent statistiques) à digérer afin de se constituer une "mémoire". En cela, il s'agit d'une méthode qui s'oppose aux méthodes classiquement répandues en intelligence artificielle, tels que les fameux réseaux de neurones, qui, pour la plupart relèvent de l'apprentissage supervisé. Il faut "alimenter" largement en données un réseau de neurones, et de plus, superviser le fait que ce dernier les "digèrent" bien. A contrario, pour un apprentissage non supervisé, aucune connaissance de base n'est requise. L'agent logiciel dispose d'une mémoire vierge, qu'il va faire évoluer au gré de ses expériences.

Bien sûr, il reste un point indispensable: nécessairement, l'agent doit être capable de déterminer la récompense engendrée par une quelconque de ses actions, en fonction de l'état dans lequel il se trouve, ce qui implicitement impose qu'il dispose de moyens de perception fonctionnels ... En très simplifié, il se "débrouille tout seul" ! Il s'agit là d'un avantage déterminant, lorsqu'on se retrouve à vouloir traiter un problème pour lequel on ne dispose pas de données statistiques conséquentes.

Un exemple valant mieux que de longs discours, j'ai écrit une applet JAVA de démonstration.

A moins d'être déjà informé, je vous conseille de prendre le temps de lire les quelques explications qui suivent afin de profiter pleinement de l'applet en question ...

RQUE: Il s'agit d'une applet utilisant swing (JApplet ...), vous devez donc disposer d'un plugin java récent (version >= 1.3) pour votre navigateur. N'hésitez pas à télécharger la dernière version sur le site adéquat.

Le problème que j'ai choisi de traiter ne brille pas par son originalité. Tout au plus, a-t-il le mérite d'être relativement simple et bien adapté au Q-Learning, dont le paramétrage est un "art" auquel il vaut mieux être initié en douceur ...

Contexte du problème :

Un robot (virtuel) - l'agent - est amené à se déplacer à l'intérieur d'un domaine carré, symbolisé par une carte de cases. On compte trois types de cases:

cases normales - R.A.S;
cases dangereuses : elles symbolisent des zones que le robot doit chercher à éviter (on peut imaginer qu'elles sont radioactives par exemple);
cases cibles: elles symbolisent des zones que le robot doit chercher à atteindre (maison, sucrée maison ...).

On suppose que le robot sait se déplacer suivant les quatre axes cardinaux (Nord, Est, Sud, Ouest), allant de case en case, en qu'en outre il dispose de moyens de détection lui permettant d'identifier la nature de la case sur laquelle il se trouve. Le domaine de déplacement est carré, et fermé (impossible de s'enfuir, mais rien n'interdit que le robot heurte les limites du domaine ...).

Le robot explore donc le domaine, et à chacun de ses déplacements, il reçoit une récompense :

valant 0.0, si il pénètre dans une case normale;
valant -5000.0 (valeur par défaut, modifiable), si il pénètre dans une case dangereuse (pénalité);
valant +1000.0 (valeur par défaut, modifiable), si il pénètre dans une case cible (gratification).

A noter que, au lancement de l'apprentissage ou lorsque le robot a atteint une case cible, il est (re)déposé dans une case choisie au hasard parmi toutes les cases de la carte, et (re)commence à explorer le domaine (pour les matheux: c'est un problème cyclique en horizon fini ... En principe, le Q-Learning est destiné à traiter des problèmes de décision markoviens (MDP), en horizon infini, mais il s'avère qu'il fonctionne également pour les problèmes cycliques en horizon fini ... ).

Au démarrage de l'applet, vous devriez voir cela:

Pour commencer, on choisit la taille de la carte à utiliser : 10, 15 ou 20 cases (par côté), ce qui fait apparaître la carte en question, et rend le bouton d'apprentissage actif.

Ensuite, il s'agit de positionner sur la carte les cases cibles et les cases dangereuses.

Pour cela, il suffit de cliquer avec la souris sur la case choisie, avec le bouton gauche pour marquer une case dangereuse et le bouton droit pour une case cible (si vous vous trompez, un click sur le bouton du milieu ou sur la molette permet de remettre une case en position "normale"). Voici un exemple de mon cru :

Puis, après avoir éventuellement modifiée la valeur de certains des paramètres, on lance l'apprentissage par le bouton "Apprendre !". Cela ressemble à cela:

Si le nombre d'itérations sélectionné est raisonnable (proche de la valeur par défaut ...), et que vous disposez d'une machine récente, le résultat apparait au bout de quelques instants (à peine quelques secondes sur mon athlon xp1700+). Sinon ... armez vous de patience ! Le Q-Learning est connu pour être extrêmement vorace en ressources (mémoire, occupation du processeur, ...). Voici le résultat sur l'exemple:

Interprétation du résultat:

A la fin de l'exécution de l'algorithme, la carte se recouvre de flèches, symbolisant sur chaque case, ce que le robot considère comme étant le meilleur choix de déplacement possible. Le marquage des cases reste visible en transparence. Vous pouvez, en réappuyant sur le bouton "Apprendre !" relancer une séance d'apprentissage sur la même carte.

Ne soyez pas surpris si lors d'une succession de tests sur une carte donnée, les autres paramètres étant également inchangés, vous obtenez des résultats différents d'un test à l'autre. Cela tient à la nature de la convergence de l'algorithme. Les solutions obtenues sont en fait quasi-optimales. La preuve que l'algorithme de Q-Learning converge vers la solution optimale du problème existe (on la doit à J.C.Watkins), hélas, la convergence est assurée pourvu qu'on lui laisse effectuer une infinité d'itérations !!! (Impossible donc en pratique ...). Cependant, sile nombre d'itérations choisi est suffisament grand, on observe de grandes similitudes entre les solutions lors de tests successifs, ce qui permet de penser que l'on a obtenu des solutions quasi-optimales (stabilisation autour de l'optimum). Si les solutions successives diffèrent trop d'un test à l'autre, il faut augmenter le nombre d'itérations. N'oublions pas que les actions effectuées par l'agent pour se forger son expérience sont, pour la plupart, choisies aléatoirement !!! (voir à ce propos le paramétrage du taux d'exploration ci-après).

Enfin, une dernière remarque: comme vous l'avez peut être remarqué, le problème que l'on cherche à résoudre ressemble fortement à un problème de recherche de plus courts chemins sur un graphe. Bien sûr, il existe des algorithmes spécifiques pour ce type de problème, largement plus efficaces et rapides que le Q-Learning. Il ne s'agit que d'une illustration ... Il me paraît dérisoire de vouloir construire un pathfinder grace au Q-Learning !!!

Paramétrage:

Dans le panel des options de l'applet, figurent un certain nombre de paramètres réglables, certains étant liés à la nature du problème, d'autres étant des paramètres "typiques" au Q-Learning.

Outre la taille de la carte, il est donc possible de spécifier :

Le nombre d'itérations : réglé par défaut sur 5 000 000. Cette valeur donne de bons résultats, quelle que soit la taille de la carte sélectionnée (10, 15 ou 20). Pour une carte de 20 cases de côté, présentant une situation complexe (en termes de cases dangereuses et de cases cibles), il peut s'avérer nécessaire d'augmenter cette valeur ... A vous d'expérimenter ! Plus vous demandez d'itérations, plus les temps de calcul sont longs ...
Le taux d'exploration : au sein de l'apprentissage, l'agent explore le domaine ( ou, de manière plus générale, placé dans un état donné, il entreprend une action qui l'amène à un nouvel état, etc, etc ...). Cette exploration peut être entreprise de bien des manières différentes. J'ai choisi une stratégie d'exploration dite semi-uniforme, bien adapté au type de problème que l'on cherche à résoudre. On définit un "taux d'exploration" (même si le terme semble assez mal choisi ...), et au moment où l'agent doit choisir une action à accomplir, il tire au hasard un nombre réel compris entre 0 e 1. Si le nombre tiré est inférieur au "taux d'exploration", la prochaine action sera choisie aléatoirement par l'agent ( il tire aléatoirement parmi toutes les actions disponibles pour l'état dans lequel il se trouve), sinon, il choisit comme action, celle qui, à cet instant, est l'action qu'il connaît comme étant la meilleure pour l'état dans lequel il se trouve (stratégie gloutonne). On choisit généralement un taux d'exploration relativement élevé, i.e. assez proche de 1.0 ; 0.8 est une valeur donnant, en général, de bons résultats ...
Le taux d'apprentissage : il symbolise, en quelque sorte, la capacité de mémorisation instantanée de l'agent. On pourrait être donc tenté de lui donner une valeur assez forte, afin "d'accélérer l'apprentissage". Je ne le conseille pas, car cela peut conduire l'agent à donner trop d'importance aux premiers choix qu'il effectuent, qui peuvent s'avérer être de mauvais choix, en termes de comportement optimal ... Je vous engage dons à utiliser une valeur plutôt faible (inférieure à 0.2), qui, même si elle "rallonge" le temps d'apprentissage, permet d'obtenir des résultats plus ... sages. A noter que la valeur que voux fixez n'est que le taux d'apprentissage initial, puisque celui-ci décroît au fil des itérations, pour atteindre 0.0 en fin d'apprentissage. J'ai choisi de faire décroître ce taux de façon linéaire. Rque: En décochant "dégressif", vous pouvez imposer un taux d'apprentissage constant avec les itérations. Cette fonctionnalité n'est là qu'à titre strictement expérimental !!! A utiliser avec prudence ... Le Q-Learning est assuré de converger si le taux d'apprentissage est dégressif, sinon ...
Le taux d'amortissement : il s'agit d'un paramètre intrinsèque au Q-Learning. Idéalement, on doit donner une valeur plutôt forte (i.e. proche de 1.0), 0.9 étant une valeur par défaut tout à fait convenable. En abaissant le taux d'amortissement, on prend le risque de "dérouter" l'apprentissage, en ne prenant pas assez en compte les actions considérées comme optimales...
Pénalité et récompense : la pénalité est celle obtenue par l'agent lorsqu'il pénètre dans une zone dangereuse, et la récompense est celle obtenue lorsqu'il atteint une zone cible. Ces valeurs ont une grande influence sur les résultats. On constate que si on abaisse considérablement la pénalité, en laissant la récompense inchangée, l'agent peut être amené à considérer qu'il est optimal de traverser une zone dangereuse pour atteindre la cible, plutôt que de la contourner (ce qui est manifestement logique !!!). Il s'agit, à mon sens, de la partie la plus sensible et la plus délicate du paramétrage du Q-Learning. Si vous avez l'intention de vous intéresser de plus près à l'utilisation du Q-Learning dans le cadre de systèmes complexes, vous risquez d'être confrontés avec la difficulté de fixer au mieux la valeur des récompenses (et pénalités éventuelles). C'est un choix largement subjectif et d'une dimension quasi-philosophique (comment savoir si, dans un état donné, telle action est bonne ou mauvaise ...). Bon courage !!! Il s'agit de la difficulté majeure à laquelle j'ai été confronté lorsque j'ai utilisé le Q-Learning dans un projet de création d'un agent logiciel de régulation du trafic urbain sur un carrefour équipé de feux tricolores (une expérience inédite dans ce domaine, réalisée pour le compte de la société GERTRUDE)

La page de l'applet :

Pour accéder à l'applet de démonstration, cliquer ICI.

Si vous désirez les sources JAVA, elles sont disponibles ici (bouton droit, "Save Target As...").

Liens : pour ceux qui veulent aller plus loin ... (je n'ai fais qu'effleurer le sujet :-( )

Le reinforcement learning repository de l'université du Massachussets : sûrement le site de référence pour tous ceux qui cherchent des ressources relatives à l'apprentissage par renforcement. En anglais, of course ...Permet d'accéder aux pages personnelles de nombreux chercheurs impliqués dans cette discipline, à leurs publications, etc, etc, ... Une sorte de "passage obligé" ...

Retour...