Para acceder a los documentos con el texto completo, por favor, siga el siguiente enlace: http://hdl.handle.net/2117/167073

Wav2Pix: speech-conditioned face generation using generative adversarial networks
Cardoso Duarte, Amanda; Roldan, Francisco; Tubau, Miquel; Escur, Janna; Pascual de la Puente, Santiago; Salvador Aguilera, Amaia; Mohedano, Eva; McGuinness, Kevin; Torres Viñals, Jordi; Giró Nieto, Xavier
Universitat Politècnica de Catalunya. Doctorat en Teoria del Senyal i Comunicacions; Universitat Politècnica de Catalunya. Departament d'Arquitectura de Computadors; Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions; Universitat Politècnica de Catalunya. VEU - Grup de Tractament de la Parla; Universitat Politècnica de Catalunya. CAP - Grup de Computació d'Altes Prestacions; Universitat Politècnica de Catalunya. GPI - Grup de Processament d'Imatge i Vídeo
Speech is a rich biometric signal that contains information about the identity, gender and emotional state of the speaker. In this work, we explore its potential to generate face images of a speaker by conditioning a Generative Adversarial Network (GAN) with raw speech input. We propose a deep neural network that is trained from scratch in an end-to-end fashion, generating a face directly from the raw speech waveform without any additional identity information (e.g reference image or one-hot encoding). Our model is trained in a self-supervised approach by exploiting the audio and visual signals naturally aligned in videos. With the purpose of training from video data, we present a novel dataset collected for this work, with high-quality videos of youtubers with notable expressiveness in both the speech and visual signals.
Peer Reviewed
-Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Aprenentatge automàtic
-Àrees temàtiques de la UPC::Enginyeria de la telecomunicació::Processament del senyal::Reconeixement de formes
-Machine learning
-Computer vision
-Face
-Videos
-Generators
-Visualization
-Feature extraction
-Generative adversarial networks
-Deep learning
-Adversarial learning
-Face synthesis
-Computer vision.
-Aprenentatge automàtic
-Visió per ordinador
Artículo - Versión publicada
Objeto de conferencia
Institute of Electrical and Electronics Engineers (IEEE)
         

Mostrar el registro completo del ítem

Documentos relacionados

Otros documentos del mismo autor/a

McGuinness, Kevin; Mohedano, Eva; Salvador Aguilera, Amaia; Zhan, Zhenxing; Marsden, Mark; Wang, Peng; Jargalsaikhan, Iveel; Antony, Joseph; Giró Nieto, Xavier; Satoh, Shin'ichi; O'Connor, Noel; Smeaton, Alan F.
McGuinness, Kevin; Mohedano, Eva; Zhang, ZhenXing; Hu, Feiyan; Abatal, Rami; Gurrin, Cathal; O'Connor, Noel; Smeaton, Alan F.; Salvador Aguilera, Amaia; Giró Nieto, Xavier; Ventura, Carles
Mohedano, Eva; Salvador Aguilera, Amaia; McGuinness, Kevin; Marqués Acosta, Fernando; O'Connor, Noel; Giró Nieto, Xavier
Mohedano, Eva; Salvador Aguilera, Amaia; McGuinness, Kevin; Giró Nieto, Xavier; O'Connor, Noel; Marqués Acosta, Fernando
Mohedano, Eva; Healy, Graham; McGuinness, Kevin; Giró Nieto, Xavier; O'Connor, Noel; Smeaton, Alan F.