Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
Courant Institute of Mathematical Sciences
Bruna, Joan
Pascual Iserte, Antonio
2019-05-30
L'objectiu de l'estada és ampliar les capacitats actuals dels models d'exploració en entorns amb estructura aritmètica i geomètrica. L'estudiant serà exposat a l'avantguarda de la recerca en les àrees de deep learning i reinforcement learning, amb ús de biblioteques de programari com Pytorch. El primer objectiu és desenvolupar el model en entorns simulats. El segon objectiu és utilitzar el model en entorns continus. El treball serà presentat en una conferència de primer nivell de machine learning.
Outgoing
Bachelor thesis
English
Àrees temàtiques de la UPC::Enginyeria de la telecomunicació; Telecommunication; n-player differentiable games; Nash equilibria; extra-gradient method; planning in structured environments; reinforcement learning; Telecomunicació
Universitat Politècnica de Catalunya
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
Open Access
Attribution-NonCommercial-NoDerivs 3.0 Spain
Treballs acadèmics [82541]