dc.contributor
Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
dc.contributor
Camps, Octavia
dc.contributor
Giró Nieto, Xavier
dc.contributor.author
Comas Massagué, Armand
dc.date.issued
2019-07-08
dc.identifier
https://hdl.handle.net/2117/169238
dc.identifier
ETSETB-230.138901
dc.description.abstract
Video prediction has for a long time received attention within the field of computer vision, but it has gained importance during the last decade with the popularization of deep neural networks and their applications to computer vision. In this thesis, the main focus will be to linearize the dynamics of time sequences by exploiting the spatial context that video offers, with the final scope of obtaining better predictions. In the first place, we provide the theoretical base for dynamics. Following, we present several modifications for an existing deterministic predictor network called Dynamical Atoms-based Network (DYAN), which models time sequences as the output of Linear Time-Invariant (LTI) systems using system identification and dynamics foundations. The solutions present different levels of success and an in some cases they beat the State Of The Art (SOTA) for at least one dataset, in the metrics SSIM, MSE and MMF. We also present two novel convolutional autoencoder architectures (LODAEs) for low order dynamics manifold embedding, strongly based on deep neural networks, with the primary aim of giving a generalized solution for mapping video sequences into a new manifold, to adapt them to the pipeline of predictors such as DYAN, based on system identification. The results for the LODAEs are promising as they seem to achieve their goal for a very simple synthetic dataset by lowering the order of the latent space sequences and providing good reconstructions and in some cases, predictions.
dc.description.abstract
La predicción de video ha recibido atención en el campo de visión por computador durante un largo período de tiempo, pero ha ganado importancia durante la última década por la popularización de las redes neuronales y sus aplicaciones para visión. En este trabajo de fin de máster, el principal objetivo será linearizar la dinámica de las secuencias temporales a base de explotar el contexto espacial que ofrecen las secuencias de vídeo, con la intención de obtener mejores predicciones. En primer lugar, ofrecemos una sección de teoría de los fundamentos de dinámica. A continuación, presentamos diversas modificaciones para una red predictora determinística llamada Dynamical Atoms-Based Network (DYAN), que modela secuencias temporales como salida de un sistema lineal invariable en el tiempo (LTI), haciendo uso de herramientas de identificación de sistemas. Las soluciones presentan diferentes niveles de éxito y en alguno de los casos sobrepasan en resultados al estado del arte (SOTA) para al menos un set de datos, en las métricas SSIM, MSE y MMF. Además, presentamos dos arquitecturas en forma de autoencoder convolucional (LODAEs) para embeder datos en un espacio con dinámica de orden bajo, basadas en redes neuronales y con el principal objetivo de dar una solución generalizada para mapear secuencias de video en este nuevo espacio, y de esta forma adaptar los datos para predictores del mismo tipo que DYAN, basados en identificación de sistemas. Los resultados para los LODAEs son prometedores y parece que logran su objetivo para un set de datos sintético relativamente sencillo, reduciendo el orden de la dinámica en el espacio latente y obteniendo buenas reconstrucciones y, en algún caso, predicciones.
dc.description.abstract
La predicció de vídeo ha rebut atenció en el camp de visió per computador durant un llarg període de temps, però ha guanyat importància durant la última dècada per la popularització de les xarxes neuronals i les seves aplicacions per visió. En aquest treball de fi de màster, el principal objectiu serà linearitzar la dinàmica de les seqüències temporals a base de explotar el context espacial que ofereixen les seqüències de vídeo, amb la intenció d?obtenir millors prediccions. En primer lloc, oferim una secció de teoria dels fonaments de la dinàmica. A continuació presentem diferents modificacions d?una xarxa predictora determinista anomenada Dynamical Atoms-Based Network (DYAN), que modela seqüències temporals com a sortida d?un sistema lineal invariable en el temps (LTI), fent ús de eines d?identificació de sistemes. Les solucions presenten diferents nivells d?èxit i en algun dels casos sobrepassen els resultats quantitatius de l?estat de l?art (SOTA) per a, com a mínim, un set de dades, en les mètriques SSIM, MSE i MMF. A més, presentem dues arquitectures en forma de autoencoder convolucional (anomenades LODAEs) per a embedir dades en un espai amb dinàmica d?ordre baix, basades en xarxes neuronals i amb el principal objectiu de donar una solució generalitzada per a projectar seqüències de vídeo en aques nou espai, i d?aquesta manera adaptar les dades per a predictors del mateix tipus que DYAN, basats en identificació de sistemes. Els resultats per als LODAEs són prometedors i sembla que aconsegueixen els eu objectiu per a un set de dades sintètic relativament senzill, reduint l?ordre de la dinàmica en l?espai latent i obtenint bones reconstruccions, i en algun cas, prediccions.
dc.format
application/pdf
dc.publisher
Universitat Politècnica de Catalunya
dc.subject
Àrees temàtiques de la UPC::Enginyeria de la telecomunicació
dc.subject
Machine learning
dc.subject
Computer vision
dc.subject
Video recording
dc.subject
Computer Vision
dc.subject
Video Prediction
dc.subject
System Identification
dc.subject
Visión por computador
dc.subject
predicción de vídeo
dc.subject
identificación de sistemas
dc.subject
Aprenentatge automàtic
dc.subject
Visió per ordinador
dc.title
Exploring Methods for Enhancing Linear Prediction of Video Sequences
dc.title
Explorando Métodos para Mejorar la Predicción Lineal en Secuencias de Vídeo
dc.title
Explorant mètodes per a millorar la predicció lineal en seqüències de video