Universitat Politècnica de Catalunya. Departament de Ciències de la Computació
Álvarez Napagao, Sergio
2025-01-20
Aquest projecte es centra en la creació d'un entorn 3D per facilitar la formació d'agents intel·ligents en sistemes multiagents cooperatius. L'objectiu principal és explorar com es desenvolupa la comunicació emergent entre els agents, analitzant específicament la influència de la capacitat de comunicació en l'eficiència de l'aprenentatge i el rendiment de les tasques. Utilitzant tècniques d'aprenentatge per reforç, dos agents -un cercador i un observador- van ser entrenats per cooperar en la consecució d'objectius compartits. L'observador percep dades ambientals i es comunica a través de missatges de valor continu, mentre que el Cercador es basa en aquests missatges per navegar i arribar a l'objectiu. S'ha emprat una metodologia sistemàtica, disseny complet de l'entorn, configuració de recompensa iterativa i experimentació a gran escala al Barcelona Supercomputing Center. Els experiments van analitzar els efectes de diferents capacitats de comunicació (1, 2, 4 o 8 valors continus per pas de temps) en la convergència de l'entrenament, els patrons de missatges i la cooperació amb agents. Els resultats indiquen que la millora de la capacitat de comunicació accelera la convergència i aconsegueix estratègies de col·laboració més robustes, encara que amb rendiments decreixents a capacitats més altes. Els resultats aporten idees prometedores sobre el paper de la comunicació emergent en l'aprenentatge de reforç multiagent, amb implicacions per a la IA distribuïda i la robòtica. El treball futur podria expandir-se sobre les complexitats dinàmiques de les tasques i explorar els mecanismes de comunicació implícits.
This project focuses on the creation of a 3D environment to facilitate the training of intelligent agents in cooperative multi-agent systems. The primary objective is to explore how emergent communication develops among agents, specifically analyzing the influence of communication capacity on learning efficiency and task performance. Using reinforcement learning techniques, two agents-a Searcher and an Observer-were trained to cooperate in achieving shared goals. The Observer perceives environmental data and communicates via continuous-valued messages, while the Searcher relies on these messages to navigate and reach the goal. A systematic methodology was employed, completly environment design, iterative reward shaping, and large-scale experimentation on the Barcelona Supercomputing Center. Experiments analyzed the effects of varying communication capacities (1, 2, 4, or 8 continuous values per timestep) on training convergence, message patterns, and agent cooperation. Results indicate that enhanced communication capacity accelerates convergence and achieves more robust collaborative strategies, although with diminishing returns at higher capacities. The findings contribute promising insights into emergent communication's role in multi-agent reinforcement learning, with implications for distributed AI and robotics. Future work could expand on dynamic task complexities and explore implicit communication mechanisms.
Bachelor thesis
English
Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial; Machine learning; Robotics; Multiagent systems; MARL; RL; Comunicació emergent; Unity; Entorn 3D; MARL; Emergent Communication; 3D Environment; Aprenentatge automàtic; Robòtica; Sistemes multiagent
Universitat Politècnica de Catalunya
Open Access
Treballs acadèmics [82542]