Autor/a

Berga Gatius, Albert

Altres autors/es

García González, Roberto

Universitat de Lleida. Escola Politècnica Superior

Data de publicació

2017-07-24T07:41:13Z

2017-07-24T07:41:13Z

2017-07



Resum

In this project we have used data science tools and techniques to detect duplicated data in GREC repository, which contains information about the articles published by University of Lleida staff. We have used Locality-sensitive hashing (LSH) to group articles in a way that those which are more likely to be duplicates are classified to the same group. Then, we have compared pairwise articles in the same group to determine which pairs are referring the same article.

Tipus de document

masterThesis

Llengua

Anglès

Matèries i paraules clau

Spark; Big data; Data mining; Data science; Macrodades; Mineria de dades

Drets

cc-by-nc-nd

http://creativecommons.org/licenses/by-nc-nd/4.0/

Aquest element apareix en la col·lecció o col·leccions següent(s)