dc.contributor
Universitat Politècnica de Catalunya. Departament de Ciències de la Computació
dc.contributor
Álvarez Napagao, Sergio
dc.contributor.author
Fuentes Martín, Jan
dc.date.issued
2025-10-22
dc.identifier
https://hdl.handle.net/2117/445111
dc.description.abstract
Aquest Treball de Fi de Grau es centra en la creació d'un entorn 3D per a l'entrenament d'agents intel·ligents mitjançant aprenentatge per reforç. L'objectiu principal del projecte és presentar un entorn complex en el qual puguin coexistir un o més agents i dur-hi a terme experiments. Utilitzant tècniques d'aprenentatge per reforç, es van desenvolupar diferents agents i l'experiment es va dividir en tres escenaris principals. En el primer escenari, hi ha únicament un agent explorador situat dins d'un laberint tancat. Aquest agent coneix la distribució del laberint, la seva posició i la seva velocitat. En el segon escenari, l'agent observa la mateixa informació que en el cas anterior, però també coneix la posició del tresor. A més, es van dur a terme experiments amb diferents mides de laberint per analitzar-ne l'impacte en el procés d'entrenament. Finalment, en el tercer escenari s'introdueixen un agent explorador i un agent observador. L'explorador es troba dins del laberint i només rep informació a través dels missatges que li envia l'observador, en quantitats d'1, 2, 4, 8 o 16 missatges. L'agent observador, per la seva banda, coneix la posició i la velocitat de l'explorador, la ubicació del tresor i la distribució completa del laberint. Tots dos agents han d'aprendre a comunicar-se per assolir l'objectiu comú. Gràcies a la metodologia emprada, que incloïa el disseny de l'entorn, l'experimentació amb diferents configuracions dels agents i la implementació dels agents finals, es van analitzar tant l'eficiència de l'entrenament com la qualitat dels agents entrenats. A més, es va avaluar l'escalabilitat dels agents a mesura que augmentava la mida del laberint i es va determinar quina era la quantitat òptima de missatges per al nostre escenari. Finalment, els resultats van mostrar que, quan l'agent coneix completament el seu entorn, sempre és més eficient que la comunicació. Tanmateix, en els casos en què l'entorn només és parcialment observable, els agents han de comunicar-se per assolir una major eficiència i un millor procés d'aprenentatge. El desenvolupament de l'entorn i els resultats obtinguts obren la porta a futurs treballs destinats a continuar explorant la comunicació entre agents.
dc.description.abstract
This Final Degree Project focuses on the creation of a 3D environment for training in- telligent agents through reinforcement learning. The main objective of the project is to present a complex environment in which one or more agents can coexist and be used for experimentation. Using reinforcement learning techniques, different agents were devel- oped, and the experiment was divided into three main scenarios. In the first scenario, there is only one explorer agent placed in a closed maze. This agent knows the layout of the maze, its own position, and its velocity. In the second scenario, the agent observes the same information as in the previous case but also knows the position of the treasure. Additionally, experiments were conducted with different maze sizes to analyze their effect on the training process. Finally, in the third scenario, both an explorer agent and an observer agent are introduced. The explorer is located within the maze and only receives information through messages sent by the observer, in quantities of 1, 2, 4, 8, or 16. The observer agent, on the other hand, has complete knowledge of the maze layout, the position and velocity of the explorer, and the location of the treasure. Both agents must learn to communicate effectively in order to achieve their shared objective. Thanks to the employed methodology, which included environment design, experi- mentation with different agent configurations, and the implementation of the final agents, both the efficiency of the training and the performance quality of the trained agents were analyzed. Moreover, the scalability of the agents was evaluated as the maze size increased, and the most suitable number of messages for effective communication was determined. The results showed that when the agent has complete knowledge of its environment, it always performs more efficiently than when relying on communication. However, in situations where the environment is only partially observable, communication between agents becomes essential to achieve greater efficiency and better learning performance. The design of the environment and the obtained results open the door to future research aimed at further exploring communication between agents.
dc.description.abstract
Este Trabajo de Final de Grado gira en torno a la creación de un entorno 3D para el entrenamiento de agentes inteligentes mediante aprendizaje por refuerzo. El principal propósito del proyecto es presentar un entorno complejo en el que puedan coexistir uno o más agentes y realizar experimentos con ellos. Utilizando técnicas de aprendizaje por refuerzo se desarrollaron diferentes agentes y se dividió el experimento en tres conjuntos. En el primer escenario se incluye únicamente un agente explorador situado en un laberinto cerrado que conoce la distribución del laberinto, su posición y su velocidad. En el segundo escenario el agente observa lo mismo que en el caso anterior, pero además conoce la posición del tesoro, y también se experimentó con el tamaño del laberinto para analizar su impacto en el entrenamiento. Finalmente, en el tercer escenario se introduce un agente explorador y un agente observador; el explorador se encuentra en el laberinto y solo conoce la información que el observador le envía mediante mensajes, en cantidades de 1, 2, 4, 8 o 16. El agente observador, por su parte, conoce la posición y velocidad del explorador, la ubicación del tesoro y la distribución completa del laberinto. Ambos deben aprender a comunicarse para lograr su objetivo. Gracias a la metodología empleada, que incluía el diseño del entorno, la experimentación con distintas configuraciones de los agentes y la implementación de los agentes finales, se analizaron tanto la eficiencia del entrenamiento como la calidad del agente entrenado. Además, se evaluó la escalabilidad de los agentes cuando el tamaño del laberinto aumenta y se determinó cuál es la cantidad de mensajes más adecuada para nuestro escenario. Finalmente, los resultados indicaron que, cuando el agente conoce por completo su entorno, siempre resulta más eficiente que la comunicación, pero en los casos en los que el entorno solo se conoce parcialmente, los agentes deben comunicarse para lograr una mayor eficiencia y un mejor entrenamiento. La elaboración del entorno y los resultados obtenidos abren la puerta a futuros trabajos destinados a seguir explorando la comunicación entre agentes
dc.format
application/pdf
dc.publisher
Universitat Politècnica de Catalunya
dc.subject
Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Aprenentatge automàtic
dc.subject
Reinforcement learning
dc.subject
Computer simulation
dc.subject
Aprenentatge per reforç
dc.subject
Simulació per ordinador
dc.title
Exploring multi-agent communication in 3D environments