dc.contributor |
Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions |
dc.contributor |
Bonafonte Cávez, Antonio |
dc.contributor.author |
Dorca Saez, Georgina |
dc.date |
2018-01 |
dc.identifier.citation |
ETSETB-230.131595 |
dc.identifier.uri |
http://hdl.handle.net/2117/117980 |
dc.language.iso |
eng |
dc.publisher |
Universitat Politècnica de Catalunya |
dc.rights |
S'autoritza la difusió de l'obra mitjançant la llicència Creative Commons o similar 'Reconeixement-NoComercial- SenseObraDerivada' |
dc.rights |
info:eu-repo/semantics/openAccess |
dc.rights |
http://creativecommons.org/licenses/by-nc-nd/3.0/es/ |
dc.subject |
Àrees temàtiques de la UPC::Enginyeria de la telecomunicació |
dc.subject |
Neural networks (Computer science) |
dc.subject |
Machine learning |
dc.subject |
Speech processing systems |
dc.subject |
Deep learning |
dc.subject |
Speech processing systems |
dc.subject |
Neural Nets |
dc.subject |
Aprendizaje profundo |
dc.subject |
Sistemas de procesado del habla |
dc.subject |
Redes Neuronales |
dc.subject |
Xarxes neuronals (Informàtica) |
dc.subject |
Aprenentatge automàtic |
dc.subject |
Processament de la parla |
dc.title |
Neural Audio Generation for Speech Synthesis |
dc.type |
info:eu-repo/semantics/bachelorThesis |
dc.description.abstract |
Most speech synthesis systems require a linguistic module to produce the features that drive the speech generation module. In this project, system will be designed using a deep architecture and automatically learned to produce either linguistic features or speech from the raw letter representation. |
dc.description.abstract |
Recently, neural networks have become the state of the art for speech synthesis from raw text tasks and they are actually representing a powerful force in the industry. In this project, we present an end-to-end deep learning-based TTS system, able to generate a voice signal from characters. In order to fulfil this task we developed a re-implementation of the Uncodicional-SampleRNN neural vocoder, in order to be conditioned under an adaptation of MUSA, which predicts vocoder parameters from text. |
dc.description.abstract |
Recientemente, las redes neuronales se han convertido en el estado del arte para las tareas de síntesis del habla y actualmente representan una fuerza poderosa en la industria. En este proyecto, presentamos un sistema de conversión de texto a voz (Text-to-Speech) basado en aprendizaje profundo (Deep learning), capaz de generar una señal de voz a partir de caracteres. Para realizar dicha tarea desarrollamos una adaptación de MUSA, encargado de realizar una predicción de los parámetros del vocoder a partir del texto para, posteriormente, condicionar una reimplementación del vocoder neuronal Uncodicional-SampleRNN. |
dc.description.abstract |
Recentment, les xarxes neuronals s'han convertit en l'estat de l'art per a les tasques de síntesis de la parla i actualment representen una força poderosa en la indústria. En aquest projecte, presentem un sistema de conversió de text a veu (Text-to-Speech) basat en aprenentatge profund (Deep learning), capaç de generar un senyal de veu a partir de caràcters. Per realitzar aquesta tasca desenvolupem una adaptació de MUSA, encarregat de realitzar una predicció dels paràmetres del vocoder a partir del text, per condicionar posteriorment una reimplementació del vocoder neuronal Uncodicional-SampleRNN. |