2D to 3D body pose estimation for sign language with Deep Learning

Predicción de posturas corporales de 2D a 3D para lenguaje de signos por Deep Learning;
Predicció de postures corporals de 2D a 3D per llenguatge de signes amb Deep Learning

dc.contributor
Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
dc.contributor
Giró Nieto, Xavier
dc.contributor
Mcguinness, Kevin
dc.contributor.author
Perez Granero, Pol
dc.date.issued
2020-06
dc.identifier
https://hdl.handle.net/2117/331960
dc.identifier
ETSETB-230.154419
dc.description.abstract
This project aims at leveraging the challenge of using 3D poses for Sign Language translation or animation by transforming 2D pose datasets into 3D ones. The goal is, using a 3D dataset of American Sign Language, to train a deep neural network that will predict the depth coordinates of the skeleton keypoints from 2D coordinates. Specifically, it will be explored a Long Short-Term Memory network, an architecture broadly used for sequence to sequence tasks. The conclusions extracted on this report are that despite some of the results being good enough to be used for actual 3D SL annotation, the majority of them lack the precision to do so, and they are too variant with respect to the dataset split. It is also concluded that the solutions approached here could be improved by adding some regularization methods, more powerful hardware to run better experiments, and new input features such as keypoint visibility.
dc.description.abstract
Este proyecto tiene como meta contribuir en el desafío de usar poses 3D para la traducción o animación del lenguaje de señas mediante la transformación de conjuntos de datos de poses 2D a poses 3D. El objetivo es, utilizando un conjunto de datos en 3D del lenguaje de señas americano, entrenar una red neuronal profunda que prediga las coordenadas de profundidad de los "keypoint" del esqueleto a partir de sus coordenadas 2D. Específicamente, se explorará una red "Long Short-Term Memory", una arquitectura ampliamente utilizada para tareas de secuencia-a-secuencia. Las conclusiones extraídas en este informe son que, a pesar de que algunos de los resultados son lo suficientemente buenos como para ser utilizados para la anotación 3D de lenguajes de signos real, la mayoría de ellos carecen de la precisión para hacerlo, y son demasiado variantes con respecto a la división del conjunto de datos. También se concluye que las soluciones abordadas aquí podrían mejorarse agregando algunos métodos de regularización, hardware más potente para ejecutar mejores experimentos y nuevas características de entrada como la visibilidad de los "keypoints".
dc.description.abstract
Aquest projecte té com a finalitat ajudar en el repte d?utilitzar postures en 3D per a la traducció o animació de llenguatges de signes transformant conjunts de dades de postures 2D a postures 3D. L?objectiu és, mitjançant un conjunt de dades 3D de llenguatge de signes americà, formar una xarxa neuronal profunda que predigui les coordenades de profunditat dels "keypoint" de l?esquelet a partir de les seves coordenades 2D. Concretament, s?explorarà una xarxa "Long Short-Term Memory", una arquitectura àmpliament usada per a tasques de seqüència-a-seqüència. Les conclusions extretes en aquest informe són que, malgrat que alguns dels resultats són prou bons com per ser utilitzats per a l?anotació 3D de llenguatges de signes real, la majoria no tenen la precisió per fer-ho, i són massa variants respecte a la divisió del conjunt de dades. També es conclou que es podrien millorar les solucions que aquí s'aborden afegint alguns mètodes de regularització, un maquinari més potent per executar millors experiments i noves funcions d?"input", com ara la visibilitat dels "keypoints".
dc.format
application/pdf
dc.language
eng
dc.publisher
Universitat Politècnica de Catalunya
dc.rights
S'autoritza la difusió de l'obra mitjançant la llicència Creative Commons o similar 'Reconeixement-NoComercial- SenseObraDerivada'
dc.rights
Open Access
dc.subject
Àrees temàtiques de la UPC::Enginyeria de la telecomunicació
dc.subject
Estimation theory
dc.subject
Neural networks (Computer science)
dc.subject
Machine learning
dc.subject
Natural language processing (Computer science)
dc.subject
Deep Learning
dc.subject
Machine Learning
dc.subject
Neural Networks
dc.subject
sign language
dc.subject
pose
dc.subject
3d prediction
dc.subject
keypoints
dc.subject
LSTM
dc.subject
RNN
dc.subject
Machine Learning
dc.subject
aprendizaje profundo
dc.subject
redes neuronales
dc.subject
pose
dc.subject
predicción 3D
dc.subject
Estimació, Teoria de l'
dc.subject
Xarxes neuronals (Informàtica)
dc.subject
Aprenentatge automàtic
dc.subject
Tractament del llenguatge natural (Informàtica)
dc.title
2D to 3D body pose estimation for sign language with Deep Learning
dc.title
Predicción de posturas corporales de 2D a 3D para lenguaje de signos por Deep Learning
dc.title
Predicció de postures corporals de 2D a 3D per llenguatge de signes amb Deep Learning
dc.type
Bachelor thesis


Files in this item

FilesSizeFormatView

There are no files associated with this item.

This item appears in the following Collection(s)