Interfaz de reconocimiento de gestos con Machine Learning

Brecia Calero, David

Interfaz de reconocimiento de gestos con Machine Learning

dc.contributor

Universitat Politècnica de Catalunya. Departament d'Enginyeria de Sistemes, Automàtica i Informàtica Industrial

dc.contributor

Muñoz Morgado, Luis Miguel

dc.contributor.author

Brecia Calero, David

dc.date.issued

2021-10-28

dc.identifier

https://hdl.handle.net/2117/356393

dc.identifier

PRISMA-162504

dc.description.abstract

El gran crecimiento que está suponiendo el campo de la inteligencia artificial, a través de su rama más conocida, el machine learning o aprendizaje automático, está permitiendo el surgimiento de nuevas técnicas de reconocimiento de objetos o patrones en imágenes hasta ahora imposibles de lograr con técnicas tradicionales de visión por computador. Con este enfoque, se ha diseñado e implementado una interfaz de control mediante el reconocimiento de gestos faciales, basada en la nueva disciplina, surgida a partir de los algoritmos de redes neuronales artificiales estudiados en el aprendizaje automático, llamada deep learning o aprendizaje profundo. La solución propuesta se ha dividido en diferentes tareas, todas ellas conectadas entre sí secuencialmente, en los que cada bloque aporta la información requerida para el funcionamiento del siguiente bloque. Estas tareas son la detección de caras, la detección de puntos clave en la cara, la detección de las pupilas, el tracking del movimiento de los puntos clave y las pupilas y la representación de los valores estimados de dichos movimientos. En las diferentes tareas propuestas, se ha investigado el estado del arte del problema en cuestión y se han diseñado y entrenado diferentes modelos de redes neuronales convolucionales para su resolución, un algoritmo de deep learning especialmente creado para trabajar con imágenes. Todos los algoritmos y recursos usados son de código libre y se ha prestado especial atención al uso soluciones que puedan trabajar en tiempo real en plataformas embebidas. Finalmente, se ha logrado una interfaz de control con una gran precisión en la detección de los puntos clave, logrando una buena estimación de los movimientos en tiempo real y con una buena adaptabilidad a las condiciones lumínicas del entorno. Estos movimientos se han mapeado en señales discretas y continuas que pueden usarse como señales de control para diferentes dispositivos electrónicos. Esto supone una solución al control de dispositivos a distancia o al uso de estos por personas con alguna restricción del movimiento, siendo una solución genérica aplicable a diferentes áreas y que depende únicamente de un solo sensor, una cámara de video.

dc.description.abstract

The great growth that the field of artificial intelligence is assuming, through its best known branch, machine learning, is allowing the emergence of new techniques for the recognition of objects or patterns in images that were previously impossible to achieve with computer visión techniques. With this approach, a control interface has been designed and implemented through facial gesture recognition, based on the new discipline that emerged from artificial neural network algorithms studied in machine learning, called deep learning. The proposed solution has been divided into different tasks, all of them connected to each other sequentially, in which each block provides the information required for the operation of the next block. These tasks are face detection, facial landmarks detection, pupil detection, tracking the movement of the landmarks and pupils, and representing the estimated values of such movements. In the different proposed tasks, the state of the art of the problem in question has been investigated and different models of convolutional neural networks have been designed and trained for their resolution, a deep learning algorithm specially created to work with images. All the algorithms and resources used are open source and special attention has been paid to using solutions that can work in real time on embedded platforms. Finally, a control interface has been achieved with great precision in the detection of landmarks, achieving a good estimate of movements in real time and with good adaptability to the surrounding light conditions. These movements have been mapped into discrete and continuous signals that can use as control signals for different electronic devices. This is a solution to the remote control of devices or to the use of these by people with some restriction of movement, being a generic solution applicable to different areas and that depends only on a single sensor, a video camera.

dc.format

application/pdf

dc.format

application/pdf

dc.format

application/zip

dc.language

spa

dc.publisher

Universitat Politècnica de Catalunya

dc.rights

Restricted access - author's decision

dc.subject

Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Aprenentatge automàtic

dc.subject

Machine learning

dc.subject

Human face recognition (Computer science)

dc.subject

Aprendizaje automático

dc.subject

Aprendizaje profundo

dc.subject

Redes neuronales artificiales

dc.subject

Redes neuronales convolucionales

dc.subject

Interfaz de control

dc.subject

Visión por computador

dc.subject

Detección de caras

dc.subject

Detección de puntos clave

dc.subject

Machine learning

dc.subject

Deep learning

dc.subject

Artificial neural networks

dc.subject

Convolutional neural networks

dc.subject

Control interface

dc.subject

Computer vision

dc.subject

Face detection

dc.subject

Landmarks detection

dc.subject

Aprenentatge automàtic

dc.subject

Reconeixement facial (Informàtica)

dc.title

Interfaz de reconocimiento de gestos con Machine Learning

dc.type

Master thesis

Fitxers en aquest element

Fitxers	Grandària	Format	Visualització
No hi ha fitxers associats a aquest element.

Aquest element apareix en la col·lecció o col·leccions següent(s)

Treballs acadèmics [82549]