Título:
|
Visual Question Answering 2.0; Visual Question Answering 2.0; Respuestas a Preguntas Visuales 2.0; Respostes a Preguntes Visuals 2.0
|
Autor/a:
|
Roldán Sánchez, Francisco
|
Otros autores:
|
Giró Nieto, Xavier |
Abstract:
|
This bachelor's thesis explores different deep learning techniques to solve the Visual Question-Answering (VQA) task, whose aim is to answer questions about images. We study different Convolutional Neural Networks (CNN) to extract the visual representation from images: Kernelized-CNN (KCNN), VGG-16 and Residual Networks (ResNet). We also analyze the impact of using pre-computed word embeddings trained in large datasets (GloVe embeddings). Moreover, we examine different techniques of joining representations from different modalities. This work has been submitted to the second edition Visual Question Answering Challenge, and obtained a 43.48\% of accuracy. |
Abstract:
|
Esta tesis explora diferentes técnicas de aprendizaje profundo (deep learning) para solucionar la tarea de Respuestas a Preguntas Visuales , que tiene como finalidad responder preguntas sobre imágenes. Estudiamos diferentes redes convolucionales (CNN - \textit{Convolutional Neural Networks}) para extraer la representación visual de las imágenes: Kernelized-CNN (KCNN), VGG-16 y Residual Networks (ResNet). También analizamos el impacto de utilizar \textit{embeddings} precomputados que han sido entrenados en bases de datos más grandes (GloVe \textit{embeddings}). Asimismo, examinamos diferentes técnicas para combinar vectores de datos de diferentes modalidades. Este trabajo ha sido presentado a la segunda edición del Visual Question Answering Challenge y ha obtenido un 43.48\% de exactitud. |
Abstract:
|
Aquest treball de fi de grau explora diferents tècniques d'aprenentatge profund (deep learning) per a solucionar la tasca de Respostes a Preguntes Visual (Visual Question-Answering), que té com a finalitat respondre preguntes sobre imatges. Estudiem differents xarxes convolucionals (CNN - \textit{Convolutional Neural Networks}) per extreure la representació visual de les images: Kernelized-CNN (KCNN), VGG-16 i Residual Networks (ResNet). També analitzem l'impacte d'utilitzar \textit{embeddings} pre-calculats que han estat entrenats amb bases de dades més grans (GloVe \textit{embeddings}). També examinem diferents tècniques per a combinar vectors de dades de diferents modalitats. Aquesta feina ha estat presentada a la segona edició del Visual Question Answering Challenge i ha obtingut un 43.48\% d'exactitud. |
Materia(s):
|
-Àrees temàtiques de la UPC::Enginyeria de la telecomunicació -Image processing -Natural language processing (Computer science) -Artificial intelligence -artificial intelligence -image processing -natural language processing -inteligencia artificial -procesado de imágenes -procesado del lenguaje natural -Imatges -- Processament -Tractament del llenguatge natural (Informàtica) -Intel·ligència artificial |
Derechos:
|
S'autoritza la difusió de l'obra mitjançant la llicència Creative Commons o similar 'Reconeixement-NoComercial- SenseObraDerivada'
http://creativecommons.org/licenses/by-nc-nd/3.0/es/ |
Tipo de documento:
|
Trabajo/Proyecto fin de carrera |
Editor:
|
Universitat Politècnica de Catalunya
|
Compartir:
|
|