Exploring Methods for Enhancing Linear Prediction of Video Sequences

Comas Massagué, Armand

Exploring Methods for Enhancing Linear Prediction of Video Sequences

Explorando Métodos para Mejorar la Predicción Lineal en Secuencias de Vídeo;
Explorant mètodes per a millorar la predicció lineal en seqüències de video

dc.contributor

Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions

dc.contributor

Camps, Octavia

dc.contributor

Giró Nieto, Xavier

dc.contributor.author

Comas Massagué, Armand

dc.date.issued

2019-07-08

dc.identifier

https://hdl.handle.net/2117/169238

dc.identifier

ETSETB-230.138901

dc.description.abstract

Video prediction has for a long time received attention within the field of computer vision, but it has gained importance during the last decade with the popularization of deep neural networks and their applications to computer vision. In this thesis, the main focus will be to linearize the dynamics of time sequences by exploiting the spatial context that video offers, with the final scope of obtaining better predictions. In the first place, we provide the theoretical base for dynamics. Following, we present several modifications for an existing deterministic predictor network called Dynamical Atoms-based Network (DYAN), which models time sequences as the output of Linear Time-Invariant (LTI) systems using system identification and dynamics foundations. The solutions present different levels of success and an in some cases they beat the State Of The Art (SOTA) for at least one dataset, in the metrics SSIM, MSE and MMF. We also present two novel convolutional autoencoder architectures (LODAEs) for low order dynamics manifold embedding, strongly based on deep neural networks, with the primary aim of giving a generalized solution for mapping video sequences into a new manifold, to adapt them to the pipeline of predictors such as DYAN, based on system identification. The results for the LODAEs are promising as they seem to achieve their goal for a very simple synthetic dataset by lowering the order of the latent space sequences and providing good reconstructions and in some cases, predictions.

dc.description.abstract

La predicción de video ha recibido atención en el campo de visión por computador durante un largo período de tiempo, pero ha ganado importancia durante la última década por la popularización de las redes neuronales y sus aplicaciones para visión. En este trabajo de fin de máster, el principal objetivo será linearizar la dinámica de las secuencias temporales a base de explotar el contexto espacial que ofrecen las secuencias de vídeo, con la intención de obtener mejores predicciones. En primer lugar, ofrecemos una sección de teoría de los fundamentos de dinámica. A continuación, presentamos diversas modificaciones para una red predictora determinística llamada Dynamical Atoms-Based Network (DYAN), que modela secuencias temporales como salida de un sistema lineal invariable en el tiempo (LTI), haciendo uso de herramientas de identificación de sistemas. Las soluciones presentan diferentes niveles de éxito y en alguno de los casos sobrepasan en resultados al estado del arte (SOTA) para al menos un set de datos, en las métricas SSIM, MSE y MMF. Además, presentamos dos arquitecturas en forma de autoencoder convolucional (LODAEs) para embeder datos en un espacio con dinámica de orden bajo, basadas en redes neuronales y con el principal objetivo de dar una solución generalizada para mapear secuencias de video en este nuevo espacio, y de esta forma adaptar los datos para predictores del mismo tipo que DYAN, basados en identificación de sistemas. Los resultados para los LODAEs son prometedores y parece que logran su objetivo para un set de datos sintético relativamente sencillo, reduciendo el orden de la dinámica en el espacio latente y obteniendo buenas reconstrucciones y, en algún caso, predicciones.

dc.description.abstract

La predicció de vídeo ha rebut atenció en el camp de visió per computador durant un llarg període de temps, però ha guanyat importància durant la última dècada per la popularització de les xarxes neuronals i les seves aplicacions per visió. En aquest treball de fi de màster, el principal objectiu serà linearitzar la dinàmica de les seqüències temporals a base de explotar el context espacial que ofereixen les seqüències de vídeo, amb la intenció d?obtenir millors prediccions. En primer lloc, oferim una secció de teoria dels fonaments de la dinàmica. A continuació presentem diferents modificacions d?una xarxa predictora determinista anomenada Dynamical Atoms-Based Network (DYAN), que modela seqüències temporals com a sortida d?un sistema lineal invariable en el temps (LTI), fent ús de eines d?identificació de sistemes. Les solucions presenten diferents nivells d?èxit i en algun dels casos sobrepassen els resultats quantitatius de l?estat de l?art (SOTA) per a, com a mínim, un set de dades, en les mètriques SSIM, MSE i MMF. A més, presentem dues arquitectures en forma de autoencoder convolucional (anomenades LODAEs) per a embedir dades en un espai amb dinàmica d?ordre baix, basades en xarxes neuronals i amb el principal objectiu de donar una solució generalitzada per a projectar seqüències de vídeo en aques nou espai, i d?aquesta manera adaptar les dades per a predictors del mateix tipus que DYAN, basats en identificació de sistemes. Els resultats per als LODAEs són prometedors i sembla que aconsegueixen els eu objectiu per a un set de dades sintètic relativament senzill, reduint l?ordre de la dinàmica en l?espai latent i obtenint bones reconstruccions, i en algun cas, prediccions.

dc.format

application/pdf

dc.language

eng

dc.publisher

Universitat Politècnica de Catalunya

dc.rights

Open Access

dc.subject

Àrees temàtiques de la UPC::Enginyeria de la telecomunicació

dc.subject

Machine learning

dc.subject

Computer vision

dc.subject

Video recording

dc.subject

Dynamics

dc.subject

Deep Learning

dc.subject

Computer Vision

dc.subject

Video Prediction

dc.subject

System Identification

dc.subject

LTI systems

dc.subject

AutoEncoder

dc.subject

Dinámica

dc.subject

Deep Learning

dc.subject

Visión por computador

dc.subject

predicción de vídeo

dc.subject

identificación de sistemas

dc.subject

Aprenentatge automàtic

dc.subject

Visió per ordinador

dc.subject

Vídeo

dc.title

Exploring Methods for Enhancing Linear Prediction of Video Sequences

dc.title

Explorando Métodos para Mejorar la Predicción Lineal en Secuencias de Vídeo

dc.title

Explorant mètodes per a millorar la predicció lineal en seqüències de video

dc.type

Master thesis

Ficheros en el ítem

Ficheros	Tamaño	Formato	Ver
No hay ficheros asociados a este ítem.

Este ítem aparece en la(s) siguiente(s) colección(ones)

Treballs acadèmics [82549]