dc.contributor
Universitat Politècnica de Catalunya. Departament d'Enginyeria de Sistemes, Automàtica i Informàtica Industrial
dc.contributor
Zaplana Agut, Isiah
dc.contributor.author
Molina Díez, Víctor
dc.date.accessioned
2025-11-13T08:35:29Z
dc.date.available
2025-11-13T08:35:29Z
dc.date.issued
2025-06-27
dc.identifier
https://hdl.handle.net/2117/446123
dc.identifier.uri
https://hdl.handle.net/2117/446123
dc.description.abstract
Aquesta tesi presenta un marc modular que integra Models de Llenguatge a Gran Escala (LLMs) amb ontologies per permetre la manipulació robòtica guiada per llenguatge natural. El sistema proposat permet que usuaris inexperts interactuïn amb un robot mitjançant descripcions textuals i definint tasques, les quals es tradueixen en representacions simbòliques estructurades per a la planificació i execució autònomes. El marc consta de tres mòduls principals. Primer, un component encarregat d'instanciar l'ontologia que extreu les entitats, propietats i relacions a partir d'un text no estructurat mitjançant LLMs, que després es validen i s'instancien en una base de coneixement semàntic, permetent als usuaris inexperts descriure escenaris al robot de manera senzilla. Segon, un mòdul de recuperació d'informació que tradueix les preguntes dels usuaris en consultes SPARQL utilitzant LLMs, i les valida mitjançant raonament basat en regles per obtenir una resposta a la pregunta a partir de la informació disponible a l'ontologia. Tercer, un LLM que s'utilitza per generar l'estat objectiu a partir de les accions desitjades per l'usuari. A continuació, es genera un fitxer de problema en Planning Domain Definition Language (PDDL), i genera un fitxer complet de configuració de Planificació de Tasques i Moviments (TAMP) per a la seva execució en un entorn robòtic simulat. El sistema es valida en un escenari realista de manipulació de cuina mitjançant el simulador Kautham, demostrant la seva capacitat per traduir la intenció de l'usuari a alt nivell en comportament robòtic de baix nivell. En combinar la flexibilitat interpretativa dels LLMs amb el rigor formal de les ontologies, aquest treball contribueix a una interfície innovadora i centrada en l'ésser humà per a l'autonomia robòtica guiada pel coneixement.
dc.description.abstract
This thesis presents a modular framework that integrates Large Language Models (LLMs) with ontologies to enable natural language-driven robotic manipulation. The proposed system allows non-expert users to interact with a robot through free-form textual descriptions and task queries, which are grounded into structured, symbolic representations for autonomous planning and execution. The framework comprises three main modules. First, an ontology population component extracts entities, properties, and relations from unstructured text using LLMs, which are then validated and instantiated in a semantic knowledge base, enabling non-expert users to easily give scenario descriptions to the robot. Second, an information retrieval module translates user questions into SPARQL queries using LLMs and validates them using rule-based reasoning to obtain a response for the query based on the available information in the ontology. Third, an LLM is used to generate the goal state from the user desired actions. Then it constructs a Planning Domain Definition Language (PDDL) problem file, and builds a complete Task-and-Motion Planning (TAMP) configuration file for execution in a simulated robotic environment. The system is validated in a realistic kitchen manipulation scenario using the Kautham simulator, demonstrating its ability to translate high-level user intent into grounded robot behavior. By combining the interpretive flexibility of LLMs with the formal rigor of ontologies, this work contributes a novel, human-centric interface for knowledge-driven robotic autonomy.
dc.description.abstract
Esta tesis presenta un marco modular que integra Modelos de Lenguaje de Gran Escala (LLMs) con ontologías para permitir la manipulación robótica guiada por lenguaje natural. El sistema propuesto permite que usuarios inexpertos interactúen con un robot mediante descripciones textuales y definiendo tareas, que se traducen en representaciones simbólicas estructuradas para la planificación y ejecución autónomas. El marco consta de tres módulos principales. Primero, un componente encargado de instanciar ontologías que extrae entidades, propiedades y relaciones a partir de texto no estructurado usando LLMs, que luego se validan e instancian en una base de conocimiento semántico, permitiendo a los usuarios inexpertos describir escenarios al robot de forma sencilla. Segundo, un módulo de recuperación de información que traduce las preguntas del usuario en consultas SPARQL usando LLMs y las valida mediante razonamiento basado en reglas para obtener una respuesta a la pregunta basada en la información disponible en la ontología. Tercero, un LLM que se utiliza para generar el estado objetivo a partir de las acciones deseadas por el usuario. Luego construye un archivo de problema en Planning Domain Definition Language (PDDL), y genera un archivo completo de configuración de Planificación de Tareas y Movimiento (TAMP) para su ejecución en un entorno robótico simulado. El sistema se valida en un escenario realista de manipulación en cocina usando el simulador Kautham, demostrando su capacidad para traducir la intención de alto nivel del usuario en comportamiento robótico fundamentado. Al combinar la flexibilidad interpretativa de los LLMs con el rigor formal de las ontologías, este trabajo contribuye con una interfaz novedosa y centrada en el ser humano para la autonomía robótica guiada por el conocimiento.
dc.format
application/pdf
dc.publisher
Universitat Politècnica de Catalunya
dc.subject
Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Aprenentatge automàtic
dc.subject
Deep learning (Machine learning)
dc.subject
Human-robot interaction
dc.subject
Ontologies (Information retrieval)
dc.subject
Models de Llenguatge a Gran Escala (LLMs)
dc.subject
Manipulació robòtica
dc.subject
Processament del Llenguatge Natural (PLN)
dc.subject
Població d'ontologies
dc.subject
Consultes SPARQL
dc.subject
Recuperació d'Informació
dc.subject
PDDL (Planning Domain Definition Language)
dc.subject
Planificació de Tasques i Moviments (TAMP)
dc.subject
Enginyeria de prompts per a LLMs
dc.subject
Raonament semàntic
dc.subject
Cinemàtica Inversa (IK)
dc.subject
Interacció humà-robot
dc.subject
Large Language Models (LLMs)
dc.subject
Natural Language Processing (NLP)
dc.subject
Ontology population
dc.subject
SPARQL queries
dc.subject
Information retrieval
dc.subject
PDDL (Planning Domain Definition Language)
dc.subject
Task and Motion Planning (TAMP)
dc.subject
Kautham simulator
dc.subject
Knowledge representation
dc.subject
LLM prompt engineering
dc.subject
Semantic reasoning
dc.subject
Human-robot interaction
dc.subject
Human-robot interaction
dc.subject
Human-robot interaction
dc.subject
Human-robot interaction
dc.subject
Human-robot interaction
dc.subject
Aprenentatge profund (Aprenentatge automàtic)
dc.subject
Interacció persona-robot
dc.subject
Ontologies (Informàtica)
dc.title
Combining large language models and ontologies for knowledge-driven robotic manipulation