Combining large language models and ontologies for knowledge-driven robotic manipulation

Molina Díez, Víctor

Combining large language models and ontologies for knowledge-driven robotic manipulation

dc.contributor

Universitat Politècnica de Catalunya. Departament d'Enginyeria de Sistemes, Automàtica i Informàtica Industrial

dc.contributor

Zaplana Agut, Isiah

dc.contributor.author

Molina Díez, Víctor

dc.date.accessioned

2025-11-13T08:35:29Z

dc.date.available

2025-11-13T08:35:29Z

dc.date.issued

2025-06-27

dc.identifier

https://hdl.handle.net/2117/446123

dc.identifier

197982

dc.identifier.uri

https://hdl.handle.net/2117/446123

dc.description.abstract

Aquesta tesi presenta un marc modular que integra Models de Llenguatge a Gran Escala (LLMs) amb ontologies per permetre la manipulació robòtica guiada per llenguatge natural. El sistema proposat permet que usuaris inexperts interactuïn amb un robot mitjançant descripcions textuals i definint tasques, les quals es tradueixen en representacions simbòliques estructurades per a la planificació i execució autònomes. El marc consta de tres mòduls principals. Primer, un component encarregat d'instanciar l'ontologia que extreu les entitats, propietats i relacions a partir d'un text no estructurat mitjançant LLMs, que després es validen i s'instancien en una base de coneixement semàntic, permetent als usuaris inexperts descriure escenaris al robot de manera senzilla. Segon, un mòdul de recuperació d'informació que tradueix les preguntes dels usuaris en consultes SPARQL utilitzant LLMs, i les valida mitjançant raonament basat en regles per obtenir una resposta a la pregunta a partir de la informació disponible a l'ontologia. Tercer, un LLM que s'utilitza per generar l'estat objectiu a partir de les accions desitjades per l'usuari. A continuació, es genera un fitxer de problema en Planning Domain Definition Language (PDDL), i genera un fitxer complet de configuració de Planificació de Tasques i Moviments (TAMP) per a la seva execució en un entorn robòtic simulat. El sistema es valida en un escenari realista de manipulació de cuina mitjançant el simulador Kautham, demostrant la seva capacitat per traduir la intenció de l'usuari a alt nivell en comportament robòtic de baix nivell. En combinar la flexibilitat interpretativa dels LLMs amb el rigor formal de les ontologies, aquest treball contribueix a una interfície innovadora i centrada en l'ésser humà per a l'autonomia robòtica guiada pel coneixement.

dc.description.abstract

This thesis presents a modular framework that integrates Large Language Models (LLMs) with ontologies to enable natural language-driven robotic manipulation. The proposed system allows non-expert users to interact with a robot through free-form textual descriptions and task queries, which are grounded into structured, symbolic representations for autonomous planning and execution. The framework comprises three main modules. First, an ontology population component extracts entities, properties, and relations from unstructured text using LLMs, which are then validated and instantiated in a semantic knowledge base, enabling non-expert users to easily give scenario descriptions to the robot. Second, an information retrieval module translates user questions into SPARQL queries using LLMs and validates them using rule-based reasoning to obtain a response for the query based on the available information in the ontology. Third, an LLM is used to generate the goal state from the user desired actions. Then it constructs a Planning Domain Definition Language (PDDL) problem file, and builds a complete Task-and-Motion Planning (TAMP) configuration file for execution in a simulated robotic environment. The system is validated in a realistic kitchen manipulation scenario using the Kautham simulator, demonstrating its ability to translate high-level user intent into grounded robot behavior. By combining the interpretive flexibility of LLMs with the formal rigor of ontologies, this work contributes a novel, human-centric interface for knowledge-driven robotic autonomy.

dc.description.abstract

Esta tesis presenta un marco modular que integra Modelos de Lenguaje de Gran Escala (LLMs) con ontologías para permitir la manipulación robótica guiada por lenguaje natural. El sistema propuesto permite que usuarios inexpertos interactúen con un robot mediante descripciones textuales y definiendo tareas, que se traducen en representaciones simbólicas estructuradas para la planificación y ejecución autónomas. El marco consta de tres módulos principales. Primero, un componente encargado de instanciar ontologías que extrae entidades, propiedades y relaciones a partir de texto no estructurado usando LLMs, que luego se validan e instancian en una base de conocimiento semántico, permitiendo a los usuarios inexpertos describir escenarios al robot de forma sencilla. Segundo, un módulo de recuperación de información que traduce las preguntas del usuario en consultas SPARQL usando LLMs y las valida mediante razonamiento basado en reglas para obtener una respuesta a la pregunta basada en la información disponible en la ontología. Tercero, un LLM que se utiliza para generar el estado objetivo a partir de las acciones deseadas por el usuario. Luego construye un archivo de problema en Planning Domain Definition Language (PDDL), y genera un archivo completo de configuración de Planificación de Tareas y Movimiento (TAMP) para su ejecución en un entorno robótico simulado. El sistema se valida en un escenario realista de manipulación en cocina usando el simulador Kautham, demostrando su capacidad para traducir la intención de alto nivel del usuario en comportamiento robótico fundamentado. Al combinar la flexibilidad interpretativa de los LLMs con el rigor formal de las ontologías, este trabajo contribuye con una interfaz novedosa y centrada en el ser humano para la autonomía robótica guiada por el conocimiento.

dc.format

application/pdf

dc.language

eng

dc.publisher

Universitat Politècnica de Catalunya

dc.rights

Open Access

dc.subject

Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Aprenentatge automàtic

dc.subject

Deep learning (Machine learning)

dc.subject

Human-robot interaction

dc.subject

Ontologies (Information retrieval)

dc.subject

Models de Llenguatge a Gran Escala (LLMs)

dc.subject

Ontologies

dc.subject

Manipulació robòtica

dc.subject

Processament del Llenguatge Natural (PLN)

dc.subject

Població d'ontologies

dc.subject

Consultes SPARQL

dc.subject

Recuperació d'Informació

dc.subject

PDDL (Planning Domain Definition Language)

dc.subject

Planificació de Tasques i Moviments (TAMP)

dc.subject

Kautham

dc.subject

Enginyeria de prompts per a LLMs

dc.subject

OWL

dc.subject

RDF

dc.subject

SPARQL

dc.subject

LangChain

dc.subject

LangGraph

dc.subject

Raonament semàntic

dc.subject

Cinemàtica Inversa (IK)

dc.subject

Interacció humà-robot

dc.subject

Large Language Models (LLMs)

dc.subject

Natural Language Processing (NLP)

dc.subject

Ontology population

dc.subject

SPARQL queries

dc.subject

Information retrieval

dc.subject

PDDL (Planning Domain Definition Language)

dc.subject

Task and Motion Planning (TAMP)

dc.subject

Kautham simulator

dc.subject

Knowledge representation

dc.subject

LLM prompt engineering

dc.subject

Semantic reasoning

dc.subject

Human-robot interaction

dc.subject

Human-robot interaction

dc.subject

Human-robot interaction

dc.subject

Human-robot interaction

dc.subject

Human-robot interaction

dc.subject

Aprenentatge profund (Aprenentatge automàtic)

dc.subject

Interacció persona-robot

dc.subject

Ontologies (Informàtica)

dc.title

Combining large language models and ontologies for knowledge-driven robotic manipulation

dc.type

Bachelor thesis

Files in this item

Files	Size	Format	View
There are no files associated with this item.

This item appears in the following Collection(s)

Treballs acadèmics [82539]