dc.contributor |
École nationale supérieure des télécommunications |
dc.contributor |
Giró Nieto, Xavier |
dc.contributor |
Clémençon, Stéphan |
dc.contributor.author |
Carós Roca, Mariona |
dc.date |
2017-06 |
dc.identifier.citation |
ETSETB-230.126688 |
dc.identifier.uri |
http://hdl.handle.net/2117/107291 |
dc.language.iso |
eng |
dc.publisher |
Universitat Politècnica de Catalunya |
dc.rights |
S'autoritza la difusió de l'obra mitjançant la llicència Creative Commons o similar 'Reconeixement-NoComercial- SenseObraDerivada' |
dc.rights |
info:eu-repo/semantics/openAccess |
dc.rights |
http://creativecommons.org/licenses/by-nc-nd/3.0/es/ |
dc.subject |
Àrees temàtiques de la UPC::Enginyeria de la telecomunicació |
dc.subject |
Automatic machinery |
dc.subject |
Statistics |
dc.subject |
Probabilities |
dc.subject |
Time series |
dc.subject |
IoT |
dc.subject |
anomaly detection |
dc.subject |
unsupervised |
dc.subject |
sequential analysis |
dc.subject |
machine learning |
dc.subject |
statistics |
dc.subject |
series temporales |
dc.subject |
análisis secuencial |
dc.subject |
no supervisado |
dc.subject |
Hypothesis Testing |
dc.subject |
Processament digital |
dc.subject |
Màquines automàtiques |
dc.subject |
Estadística |
dc.subject |
Probabilitats |
dc.title |
Machine Learning with stream processing engines for IoT applications |
dc.type |
info:eu-repo/semantics/bachelorThesis |
dc.description.abstract |
The Internet of Things (IoT) enables to connect multiple devices for providing a certain service, consequently huge amount of data is generated in time, known as time series. This phenomenon presents unique challenges in defining the data behavior and detecting anomalies. In this thesis, we present an appropriate method for defining the normal behavior of the time series and detection of anomalies. We generate a daily periodic data set of time series based on the analysis of an energy consumption real data. Then, by observing the input data, assumed to be independent from an unknown probability distribution, we define the normal behavior. The description of the data distribution is obtained by certain statistics and a Marked Point Process of change points. We develop techniques for detecting the anomalies and providing the type of anomaly as well, using a Multiple Hypothesis Testing . Finally, we present some experiments with the synthetic and real time series. |
dc.description.abstract |
El internet de las cosas, más conocido como Internet of Things o IoT permite interconectar distintas fuentes con el fin de cubrir una serie de necesidades. Por consiguiente, el tratamiento de la gran cantidad de datos generada en tiempo real supone un reto actualmente. En esta línea, uno de los desafíos más importantes se basa en la definición del comportamiento de las series temporales así como la detección de posibles anomalías, el cual es objeto de esta tesis. Para generar el algoritmo presentado en este trabajo se han observado los datos obtenidos de varios sensores que detectan consumo de energía, de los cuales desconocemos su función de distribución de probabilidad, para definir su comportamiento normal. Este proceso se lleva a cabo mediante un método de acumulación de eventos conocido como Marked Point Process y la estimación de ciertos parámetros estadísticos. A continuación, se han implementado una serie de técnicas para la detección e identificación de anomalías mediante el método Multiple Hypothesis Testing. Finalmente, se presentan evidencias de los buenos resultados obtenidos tanto para los datos observados como para un conjunto de muestra sintética. |
dc.description.abstract |
L'internet de les coses, més conegut com Internet of Things o IoT permet interconnectar diferents fonts amb la finalitat de cobrir una sèrie de necessitats. Per consegüent, el tractament de la gran quantitat de dades generada en temps real suposa un repte actualment. En aquesta línia, un dels desafiaments més importants es basa en la definició del comportament de les sèries temporals així com la detecció de possibles anomalies, el qual és objecte d'aquesta tesi. Per generar l'algorisme presentat en aquest treball s'han observat les dades obtingudes de diversos sensors que detecten consum d'energia, de les quals desconeixem la seva funció de distribució de probabilitat. El comportament normal de les dades el definim per mitjà d'un mètode d'acumulació d'esdeveniments conegut com Marked Point Process i l'estimació de certs paràmetres estadístics. A continuació, s'han implementat una sèrie de tècniques per a la detecció d'anomalies i la seva posterior identificació mitjançant el mètode Multiple Hypothesis Testing. Finalment, es presenten evidències dels bons resultats obtinguts tant per a les dades observades com per a un conjunt de mostra sintètica. |