Wav2Pix: speech-conditioned face generation using generative adversarial networks

Inicio | ¿Qué es? | Contacto

English | Català

Consultar RECERCAT

Por comunidades y
colecciones Por fecha Por autores Por títulos Por temas (CDU)

Consultar departamento

Por fecha Por autores Por títulos Por temas (CDU)

Estadisticas

Del documento Todo RECERCAT

Mi RECERCAT

Entrar Alertas por correo-e

Directorio de otros repositorios

RECERCAT Principal > Universitat Politècnica de Catalunya > Documents de recerca > Visualizar documento

Para acceder a los documentos con el texto completo, por favor, siga el siguiente enlace: http://hdl.handle.net/2117/167073

Título:	Wav2Pix: speech-conditioned face generation using generative adversarial networks
Autor/a:	Cardoso Duarte, Amanda; Roldan, Francisco; Tubau, Miquel; Escur, Janna; Pascual de la Puente, Santiago; Salvador Aguilera, Amaia; Mohedano, Eva; McGuinness, Kevin; Torres Viñals, Jordi; Giró Nieto, Xavier
Otros autores:	Universitat Politècnica de Catalunya. Doctorat en Teoria del Senyal i Comunicacions; Universitat Politècnica de Catalunya. Departament d'Arquitectura de Computadors; Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions; Universitat Politècnica de Catalunya. VEU - Grup de Tractament de la Parla; Universitat Politècnica de Catalunya. CAP - Grup de Computació d'Altes Prestacions; Universitat Politècnica de Catalunya. GPI - Grup de Processament d'Imatge i Vídeo
Abstract:	Speech is a rich biometric signal that contains information about the identity, gender and emotional state of the speaker. In this work, we explore its potential to generate face images of a speaker by conditioning a Generative Adversarial Network (GAN) with raw speech input. We propose a deep neural network that is trained from scratch in an end-to-end fashion, generating a face directly from the raw speech waveform without any additional identity information (e.g reference image or one-hot encoding). Our model is trained in a self-supervised approach by exploiting the audio and visual signals naturally aligned in videos. With the purpose of training from video data, we present a novel dataset collected for this work, with high-quality videos of youtubers with notable expressiveness in both the speech and visual signals.
Abstract:	Peer Reviewed
Materia(s):	-Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Aprenentatge automàtic -Àrees temàtiques de la UPC::Enginyeria de la telecomunicació::Processament del senyal::Reconeixement de formes -Machine learning -Computer vision -Face -Videos -Generators -Visualization -Feature extraction -Generative adversarial networks -Deep learning -Adversarial learning -Face synthesis -Computer vision. -Aprenentatge automàtic -Visió per ordinador
Derechos:
Tipo de documento:	Artículo - Versión publicada Objeto de conferencia
Editor:	Institute of Electrical and Electronics Engineers (IEEE)
Compartir:

Mostrar el registro completo del ítem

Documentos relacionados

Otros documentos del mismo autor/a

Insight DCU at TRECVID 2015

McGuinness, Kevin; Mohedano, Eva; Salvador Aguilera, Amaia; Zhan, Zhenxing; Marsden, Mark; Wang, Peng; Jargalsaikhan, Iveel; Antony, Joseph; Giró Nieto, Xavier; Satoh, Shin'ichi; O'Connor, Noel; Smeaton, Alan F.

Insight Centre for Data Analytics (DCU) at TRECVid 2014: instance search and semantic indexing tasks

McGuinness, Kevin; Mohedano, Eva; Zhang, ZhenXing; Hu, Feiyan; Abatal, Rami; Gurrin, Cathal; O'Connor, Noel; Smeaton, Alan F.; Salvador Aguilera, Amaia; Giró Nieto, Xavier; Ventura, Carles

Bags of local convolutional features for scalable instance search

Mohedano, Eva; Salvador Aguilera, Amaia; McGuinness, Kevin; Marqués Acosta, Fernando; O'Connor, Noel; Giró Nieto, Xavier

Object retrieval with deep convolutional features

Mohedano, Eva; Salvador Aguilera, Amaia; McGuinness, Kevin; Giró Nieto, Xavier; O'Connor, Noel; Marqués Acosta, Fernando

Improving object segmentation by using EEG signals and rapid serial visual presentation

Mohedano, Eva; Healy, Graham; McGuinness, Kevin; Giró Nieto, Xavier; O'Connor, Noel; Smeaton, Alan F.

Accesibilidad | Aviso legal | Política de Cookies | Documentos de uso interno

Coordinación

Patrocinio