Advanced search options

Advanced Search Options 🞨

Browse by author name (“Author name starts with…”).

Find ETDs with:

in
/  
in
/  
in
/  
in

Written in Published in Earliest date Latest date

Sorted by

Results per page:

You searched for +publisher:"Université Lille I – Sciences et Technologies" +contributor:("Ghavamzadeh, Mohammad"). One record found.

Search Limiters

Last 2 Years | English Only

No search limiters apply to these results.

▼ Search Limiters

1. Gabillon, Victor. Algorithmes budgétisés d'itérations sur les politiques obtenues par classification : Budgeted classification-based policy iteration.

Degree: Docteur es, Informatique, 2014, Université Lille I – Sciences et Technologies

Cette thèse étudie une classe d'algorithmes d'apprentissage par renforcement (RL), appelée « itération sur les politiques obtenues par classification » (CBPI). Contrairement aux méthodes standards de RL, CBPI n'utilise pas de représentation explicite de la fonction valeur. CBPI réalise des déroulés (des trajectoires) et estime la fonction action-valeur de la politique courante pour un nombre limité d'états et d'actions. En utilisant un ensemble d'apprentissage construit à partir de ces estimations, la politique gloutonne est apprise comme le produit d'un classificateur. La politique ainsi produite à chaque itération de l'algorithme, n'est plus définie par une fonction valeur (approximée), mais par un classificateur. Dans cette thèse, nous proposons de nouveaux algorithmes qui améliorent les performances des méthodes CBPI existantes, spécialement lorsque le nombre d’interactions avec l’environnement est limité. Nos améliorations se portent sur les deux limitations de CBPI suivantes : 1) les déroulés utilisés pour estimer les fonctions action-valeur doivent être tronqués et leur nombre est limité, créant un compromis entre le biais et la variance dans ces estimations, et 2) les déroulés sont répartis de manière uniforme entre les états déroulés et les actions disponibles, alors qu'une stratégie plus évoluée pourrait garantir un ensemble d'apprentissage plus précis. Nous proposons des algorithmes CBPI qui répondent à ces limitations, respectivement : 1) en utilisant une approximation de la fonction valeur pour améliorer la précision (en équilibrant biais et variance) des estimations, et 2) en échantillonnant de manière adaptative les déroulés parmi les paires d'état-action.

This dissertation is motivated by the study of a class of reinforcement learning (RL) algorithms, called classification-based policy iteration (CBPI). Contrary to the standard RL methods, CBPI do not use an explicit representation for value function. Instead, they use rollouts and estimate the action-value function of the current policy at a collection of states. Using a training set built from these rollout estimates, the greedy policy is learned as the output of a classifier. Thus, the policy generated at each iteration of the algorithm, is no longer defined by a (approximated) value function, but instead by a classifier. In this thesis, we propose new algorithms that improve the performance of the existing CBPI methods, especially when they have a fixed budget of interaction with the environment. Our improvements are based on the following two shortcomings of the existing CBPI algorithms: 1) The rollouts that are used to estimate the action-value functions should be truncated and their number is limited, and thus, we have to deal with bias-variance tradeoff in estimating the rollouts, and 2) The rollouts are allocated uniformly over the states in the rollout set and the available actions, while a smarter allocation strategy could guarantee a more accurate training set for the classifier. We propose CBPI algorithms that address these issues,…

Advisors/Committee Members: Preux, Philippe (thesis director), Ghavamzadeh, Mohammad (thesis director).

Subjects/Keywords: Jeux de bandits; Apprentissage par renforcement; 006.31

Record DetailsSimilar RecordsGoogle PlusoneFacebookTwitterCiteULikeMendeleyreddit

APA · Chicago · MLA · Vancouver · CSE | Export to Zotero / EndNote / Reference Manager

APA (6th Edition):

Gabillon, V. (2014). Algorithmes budgétisés d'itérations sur les politiques obtenues par classification : Budgeted classification-based policy iteration. (Doctoral Dissertation). Université Lille I – Sciences et Technologies. Retrieved from http://www.theses.fr/2014LIL10032

Chicago Manual of Style (16th Edition):

Gabillon, Victor. “Algorithmes budgétisés d'itérations sur les politiques obtenues par classification : Budgeted classification-based policy iteration.” 2014. Doctoral Dissertation, Université Lille I – Sciences et Technologies. Accessed October 19, 2019. http://www.theses.fr/2014LIL10032.

MLA Handbook (7th Edition):

Gabillon, Victor. “Algorithmes budgétisés d'itérations sur les politiques obtenues par classification : Budgeted classification-based policy iteration.” 2014. Web. 19 Oct 2019.

Vancouver:

Gabillon V. Algorithmes budgétisés d'itérations sur les politiques obtenues par classification : Budgeted classification-based policy iteration. [Internet] [Doctoral dissertation]. Université Lille I – Sciences et Technologies; 2014. [cited 2019 Oct 19]. Available from: http://www.theses.fr/2014LIL10032.

Council of Science Editors:

Gabillon V. Algorithmes budgétisés d'itérations sur les politiques obtenues par classification : Budgeted classification-based policy iteration. [Doctoral Dissertation]. Université Lille I – Sciences et Technologies; 2014. Available from: http://www.theses.fr/2014LIL10032

.