Title:
|
Multi-speaker Neural Vocoder; Síntesis de voz multi-locutor con redes neuronales recurrentes; Síntesis de veu multi-locutor amb xarxes neuronals recurrents
|
Author:
|
Barbany Mayor, Oriol
|
Other authors:
|
Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions; Bonafonte Cávez, Antonio |
Abstract:
|
Deep learning has revolutionized almost every engineering branch over the past decades and have also been successfully applied to text-to-speech, where it yields state-of-the-art performance and overcomes classical approaches. This work focuses in the implementation of a speech synthesis system based in Recurrent Neural Networks (RNNs) that holds many speakers with a unique model. Despite the fact that other systems only share some layers across speakers but maintain independent blocks for every identity, this dissertation explore the possibilities of implementing an adaptation of the end-toend model SampleRNN conditioned to both speech parameters and speaker identity that allow an entire shared framework. |
Abstract:
|
Durante las últimas décadas, el aprendizaje profundo o deep learning ha revolucionado prácticamente todas las ramas de la ingeniería y ha estado aplicado con éxito en la síntesis de voz, donde obtiene los mejores resultados sobrepasando con diferencia los anteriores obtenidos con sistemas clásicos. Éste trabajo se centra en el desarrollo de un sistema de síntesis de voz basado en redes neuronales recurrentes con un único modelo para varios locutores. Aunque otros sistemas únicamente comparten algunas capas entre hablantes pero mantienen bloques independientes para cada locutor, ésta tesis explora las posibilidades de implementar una adaptación del modelo SampleRNN condicionado a parámetros propios del hable y a la identidad del locutor que permite una estructura compartida. |
Abstract:
|
Durant les últimes dècades, l'aprenentatge profund o deep learning ha revolucionat pràcticament totes les branques de l'enginyeria i ha estat aplicat amb èxit en la síntesi de veu, on obté els millors resultats sobrepassant amb diferència els anteriors assolits amb sistemes clàssics. Aquest treball se centra en la implementació d'un sistema de síntesi de veu basat en xarxes neuronals recurrents amb un únic model per varis locutors. Encara que altres sistemes únicament comparteixen algunes capes entre parlants però mantenen blocs independents per a cada locutor, aquesta tesis explora les possibilitats d'implementar una adaptació del model SampleRNN condicionant tant a paràmetres propis de la parla com a la identitat del parlant que permet una estructura compartida. |
Subject(s):
|
-Àrees temàtiques de la UPC::Enginyeria de la telecomunicació -Machine learning -Speech processing systems -Neural networks (Computer science) -deep learning -speech synthesis -neural networks -text-to-speech -machine learning -speech processing -redes neuronales -machine learning -síntesis de voz -aprendizaje profundo -procesado de voz -Aprenentatge automàtic -Processament de la parla -Xarxes neuronals (Informàtica) |
Rights:
|
S'autoritza la difusió de l'obra mitjançant la llicència Creative Commons o similar 'Reconeixement-NoComercial- SenseObraDerivada'
http://creativecommons.org/licenses/by-nc-nd/3.0/es/ |
Document type:
|
Bachelor Thesis |
Published by:
|
Universitat Politècnica de Catalunya
|
Share:
|
|