Sie befinden Sich nicht im Netzwerk der Universität Paderborn. Der Zugriff auf elektronische Ressourcen ist gegebenenfalls nur via VPN oder Shibboleth (DFN-AAI) möglich. mehr Informationen...
Machine learning, 2019-09, Vol.108 (8-9), p.1443-1466
2019

Details

Autor(en) / Beteiligte
Titel
Compatible natural gradient policy search
Ist Teil von
  • Machine learning, 2019-09, Vol.108 (8-9), p.1443-1466
Ort / Verlag
New York: Springer US
Erscheinungsjahr
2019
Link zum Volltext
Quelle
SpringerNature Journals
Beschreibungen/Notizen
  • Trust-region methods have yielded state-of-the-art results in policy search. A common approach is to use KL-divergence to bound the region of trust resulting in a natural gradient policy update. We show that the natural gradient and trust region optimization are equivalent if we use the natural parameterization of a standard exponential policy distribution in combination with compatible value function approximation. Moreover, we show that standard natural gradient updates may reduce the entropy of the policy according to a wrong schedule leading to premature convergence. To control entropy reduction we introduce a new policy search method called compatible policy search (COPOS) which bounds entropy loss. The experimental results show that COPOS yields state-of-the-art results in challenging continuous control tasks and in discrete partially observable tasks.
Sprache
Englisch
Identifikatoren
ISSN: 0885-6125
eISSN: 1573-0565
DOI: 10.1007/s10994-019-05807-0
Titel-ID: cdi_crossref_primary_10_1007_s10994_019_05807_0

Weiterführende Literatur

Empfehlungen zum selben Thema automatisch vorgeschlagen von bX