dc.contributor
Universitat Politècnica de Catalunya. Departament d'Enginyeria de Sistemes, Automàtica i Informàtica Industrial
dc.contributor
Muñoz Morgado, Luis Miguel
dc.contributor.author
Brecia Calero, David
dc.date.issued
2021-10-28
dc.identifier
https://hdl.handle.net/2117/356393
dc.identifier
PRISMA-162504
dc.description.abstract
El gran crecimiento que está suponiendo el campo de la inteligencia artificial, a través de su rama más conocida, el machine learning o aprendizaje automático, está permitiendo el surgimiento de nuevas técnicas de reconocimiento de objetos o patrones en imágenes hasta ahora imposibles de lograr con técnicas tradicionales de visión por computador. Con este enfoque, se ha diseñado e implementado una interfaz de control mediante el reconocimiento de gestos faciales, basada en la nueva disciplina, surgida a partir de los algoritmos de redes neuronales artificiales estudiados en el aprendizaje automático, llamada deep learning o aprendizaje profundo. La solución propuesta se ha dividido en diferentes tareas, todas ellas conectadas entre sí secuencialmente, en los que cada bloque aporta la información requerida para el funcionamiento del siguiente bloque. Estas tareas son la detección de caras, la detección de puntos clave en la cara, la detección de las pupilas, el tracking del movimiento de los puntos clave y las pupilas y la representación de los valores estimados de dichos movimientos. En las diferentes tareas propuestas, se ha investigado el estado del arte del problema en cuestión y se han diseñado y entrenado diferentes modelos de redes neuronales convolucionales para su resolución, un algoritmo de deep learning especialmente creado para trabajar con imágenes. Todos los algoritmos y recursos usados son de código libre y se ha prestado especial atención al uso soluciones que puedan trabajar en tiempo real en plataformas embebidas. Finalmente, se ha logrado una interfaz de control con una gran precisión en la detección de los puntos clave, logrando una buena estimación de los movimientos en tiempo real y con una buena adaptabilidad a las condiciones lumínicas del entorno. Estos movimientos se han mapeado en señales discretas y continuas que pueden usarse como señales de control para diferentes dispositivos electrónicos. Esto supone una solución al control de dispositivos a distancia o al uso de estos por personas con alguna restricción del movimiento, siendo una solución genérica aplicable a diferentes áreas y que depende únicamente de un solo sensor, una cámara de video.
dc.description.abstract
The great growth that the field of artificial intelligence is assuming, through its best known branch, machine learning, is allowing the emergence of new techniques for the recognition of objects or patterns in images that were previously impossible to achieve with computer visión techniques. With this approach, a control interface has been designed and implemented through facial gesture recognition, based on the new discipline that emerged from artificial neural network algorithms studied in machine learning, called deep learning. The proposed solution has been divided into different tasks, all of them connected to each other sequentially, in which each block provides the information required for the operation of the next block. These tasks are face detection, facial landmarks detection, pupil detection, tracking the movement of the landmarks and pupils, and representing the estimated values of such movements. In the different proposed tasks, the state of the art of the problem in question has been investigated and different models of convolutional neural networks have been designed and trained for their resolution, a deep learning algorithm specially created to work with images. All the algorithms and resources used are open source and special attention has been paid to using solutions that can work in real time on embedded platforms. Finally, a control interface has been achieved with great precision in the detection of landmarks, achieving a good estimate of movements in real time and with good adaptability to the surrounding light conditions. These movements have been mapped into discrete and continuous signals that can use as control signals for different electronic devices. This is a solution to the remote control of devices or to the use of these by people with some restriction of movement, being a generic solution applicable to different areas and that depends only on a single sensor, a video camera.
dc.format
application/pdf
dc.format
application/pdf
dc.format
application/zip
dc.publisher
Universitat Politècnica de Catalunya
dc.rights
Restricted access - author's decision
dc.subject
Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Aprenentatge automàtic
dc.subject
Machine learning
dc.subject
Human face recognition (Computer science)
dc.subject
Aprendizaje automático
dc.subject
Aprendizaje profundo
dc.subject
Redes neuronales artificiales
dc.subject
Redes neuronales convolucionales
dc.subject
Interfaz de control
dc.subject
Visión por computador
dc.subject
Detección de caras
dc.subject
Detección de puntos clave
dc.subject
Machine learning
dc.subject
Artificial neural networks
dc.subject
Convolutional neural networks
dc.subject
Control interface
dc.subject
Computer vision
dc.subject
Face detection
dc.subject
Landmarks detection
dc.subject
Aprenentatge automàtic
dc.subject
Reconeixement facial (Informàtica)
dc.title
Interfaz de reconocimiento de gestos con Machine Learning