Title:
|
Disseny d'interfície de control gràfica per transformació de veu; Graphical interface design to control speech synthesis; Diseño de interfície de control gráfica para transformación de voz Disseny d’interfície de control gràfica per transformació de veu
|
Author:
|
Pascual de La Puente, Santiago
|
Other authors:
|
Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions; Bonafonte Cávez, Antonio |
Abstract:
|
[ANGLÈS] In this project we have developed a set of interfaces in Android to control a speech synthesis system in real time. This has involved the design and implementation of all components of the interaction, such as: the Android client, synthesis server and communications between them. The control is able to modify voice parameters to change the speaker you are listening and modifications in features like pitch or speed. The challenge facing us in this work has been the control of these synthesis parameters in real time, and must analyze the communication methods that will allow this interactivity. Developed set of communication protocols UDP and TCP transport, dealing with transfers voice signal and session information respectively. OSC library has been used to send requests to the server. The client has been developed in Android to be an emerging system in the mobile technology market today. One of the important design features of this client has been the adaptation of the interface among the different devices like handsets and tablets, enhancing the user experience. On the server side, we have a statistical parametric synthesis system using hidden Markov models. The HTS synthesis system is the basis from which we started to use this technique, but does not offer a mechanism for interaction with real-time parameters. Thus, the server has been developed using a framework that works on top of the HTS system called mage and it allows us to perform the synthesis and modification, thus adapting to our request to change the parameters in real time. |
Abstract:
|
[CASTELLÀ] En este proyecto se han desarrollado un conjunto de interfaces de control en Android de un sistema de síntesis de voz en tiempo real. Esto ha implicado el diseño e implementación de todos los componentes de la interacción, como son: el cliente Android, el servidor de síntesis y las comunicaciones entre ellos. El control al que se refiere el trabajo es el de poder modificar parámetros de la voz que cambien al hablante que estamos escuchando y modificaciones en características como el pitch o la velocidad. El reto que se nos plantea en este trabajo ha sido el control de estos parámetros de síntesis en tiempo real, debiendo analizar los métodos de comunicación que nos permitan esta interactividad. La comunicación desarrollada establece sobre los protocolos de transporte UDP y TCP, que tratan las transferencias de señal de voz e información de sesión respectivamente, y del protocolo OSC de aplicación, que nos sirve para enviar los pedidos del cliente Android al servidor. El cliente se ha desarrollado en Android por ser un sistema emergente en el mercado de las tecnologías móviles actuales. Uno de los rasgos importantes del diseño de este cliente ha sido la adaptación que ofrece a diferentes terminales que funcionen con este sistema operativo, pudiendo ser tanto móviles como tablets, ofreciendo una interfaz adaptada a cada tipo de dispositivo para aumentar la experiencia de usuario. En el lado del servidor, tenemos un sistema de síntesis paramétrica estadística mediante modelos ocultos de Markov. El sistema de síntesis HTS es la base de la que partimos para utilizar esta técnica, pero no nos ofrece un mecanismo de interactividad con los parámetros a tiempo real. Así, el servidor se ha desarrollado utilizando un framework que trabaja sobre el sistema HTS que se llama mage y si que nos permite realizar la síntesis y modificación, adaptándose de esta manera a nuestro requerimiento de cambiar los parámetros a tiempo real. |
Abstract:
|
[CATALÀ] En aquest projecte s’han desenvolupat un conjunt d’interfícies de control en Android d’un sistema de síntesis de veu a temps real. Això ha implicat el disseny i implementació de tots els components de la interacció, com són: el client Android, el servidor de síntesis i les comunicacions entre ells. El control al que es refereix el treball és el de poder modificar paràmetres de la veu que canviïn al parlant que estem escoltant i modificacions en característiques com el pitch o la velocitat. El repte que se’ns planteja en aquest treball ha estat el control d’aquests paràmetres de síntesi a temps real, havent d’analitzar els mètodes de comunicació que ens permetin aquesta interactivitat. La comunicació desenvolupada s’estableix sobre els protocols de transport UDP i TCP, que tracten les transferències de senyal de veu i informació de sessió respectivament, i del protocol OSC d’aplicació, que ens serveix per enviar les comandes del client Android al servidor. El client s’ha desenvolupat en Android per ser un sistema emergent en el mercat de les tecnologies mòbils actuals. Un dels trets importants del disseny d’aquest client ha sigut l’adaptació que ofereix a diferents terminals que funcionin amb aquest sistema operatiu, podent ser tant mòbils com tablets, oferint una interfície adaptada a cada tipus de dispositiu per augmentar l’experiència d’usuari. A la banda del servidor, tenim un sistema de síntesis paramètrica estadística mitjançant models ocults de Markov. El sistema de síntesis HTS és la base de la que partim per utilitzar aquesta tècnica, però no ens ofereix un mecanisme d’interactivitat amb els paràmetres a temps real. Així, el servidor s’ha desenvolupat fent servir un framework que treballa sobre el sistema HTS que s’anomena mage i si que ens permet realitzar la síntesis i modificació, adaptant-se d’aquesta manera al nostre requeriment de canviar els paràmetres a temps real. |
Subject(s):
|
-Àrees temàtiques de la UPC::Enginyeria de la telecomunicació::Processament del senyal::Processament de la parla i del senyal acústic -Speech synthesizers -Speech processing systems -Speech synthesis -internet protocols -multi-thread programming -Android -Síntesis de voz -protocolos de internet -programación multi-hilo -Android -Sintetitzadors de veu -Processament de la parla |
Rights:
|
S'autoritza la difusió de l'obra mitjançant la llicència Creative Commons o similar 'Reconeixement-NoComercial- SenseObraDerivada'
http://creativecommons.org/licenses/by-nc-nd/3.0/es/ |
Document type:
|
Bachelor Thesis |
Published by:
|
Universitat Politècnica de Catalunya
|
Share:
|
|