Universitat Politècnica de Catalunya. Departament de Ciències de la Computació
Vázquez Alcocer, Pere Pau
2025-06-25
Aquest projecte presenta una pipeline integral per analitzar i visualitzar un gran corpus d'articles científics procedents d'arXiv. A partir dels textos complets i les metadades, es van generar embeddings de gran qualitat utilitzant diverses estratègies, i es van avaluar mitjançant tasques de classificació amb màquines de vectors de suport (SVM). Els resultats revelen que els embeddings derivats dels resums superen sistemàticament els basats en textos complets, tant en precisió com en eficiència computacional, destacant el valor de les representacions concises en la modelització semàntica a gran escala. Per permetre una exploració intuïtiva, els embeddings d'alta dimensionalitat es van reduir a dues dimensions mitjançant t-SNE, i es van enriquir les dades amb l'extracció de paraules clau basades en TF-IDF. El resultat final és un panell interactiu desenvolupat amb Dash i Plotly, que mostra un diagrama de dispersió 2D enriquit amb filtres dinàmics, cerca per paraules clau i panells detallats sobre articles, autors i categories. Tot i que la implementació a escala completa es va veure limitada per restriccions de rendiment, l'eina permet explorar relacions semàntiques, agrupacions temàtiques i tendències temporals, facilitant la comprensió textual a gran escala i proporcionant una base sòlida per a l'anàlisi escalable i centrat en l'usuari de la literatura científica.
This project presents a comprehensive pipeline for analyzing and visualizing a large corpus of scientific articles sourced from arXiv. Starting from raw full texts and metadata, high-quality document embeddings were generated using various strategies and evaluated through classification tasks with Support Vector Machines. A key finding reveals that embeddings derived from abstracts consistently outperform those based on full texts-both in accuracy and computational efficiency-highlighting the value of concise representations in large-scale semantic modeling. To enable intuitive exploration, the high-dimensional embeddings were reduced to two dimensions using t-SNE, and semantic richness was further improved through TF-IDF-based keyword extraction. The final output is an interactive web-based dashboard developed using Dash and Plotly, featuring a 2D scatterplot of the document space enriched with dynamic filtering, keyword-based search, and detailed panels for papers, authors, and categories. While full-scale deployment was limited by performance constraints, the tool successfully enables exploration of semantic relationships, thematic clusters, and temporal trends-facilitating large-scale textual sensemaking and providing an effective foundation for scalable, user-centered analysis of scientific literature.
Este proyecto presenta una pipeline integral para analizar y visualizar un gran corpus de artículos científicos procedentes de arXiv. A partir de los textos completos y metadatos, se generaron embeddings de alta calidad utilizando diversas estrategias, evaluadas posteriormente mediante tareas de clasificación con máquinas de vectores de soporte (SVM). Un hallazgo clave revela que los embeddings derivados de los resúmenes superan sistemáticamente a los basados en textos completos, tanto en precisión como en eficiencia computacional, lo que subraya el valor de las representaciones concisas en la modelización semántica a gran escala. Para facilitar una exploración intuitiva, los embeddings de alta dimensión se redujeron a dos dimensiones utilizando t-SNE, y la riqueza semántica se mejoró mediante la extracción de palabras clave basadas en TF-IDF. El resultado final es un panel interactivo desarrollado con Dash y Plotly, que presenta un diagrama de dispersión 2D enriquecido con filtros dinámicos, búsqueda por palabras clave y paneles detallados sobre artículos, autores y categorías. Aunque la implementación a escala completa estuvo limitada por restricciones de rendimiento, la herramienta permite explorar relaciones semánticas, agrupaciones temáticas y tendencias temporales, facilitando la comprensión textual a gran escala y proporcionando una base efectiva para el análisis escalable y centrado en el usuario de literatura científica.
Bachelor thesis
Inglés
Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural; Dashboards (Management information systems); Natural language processing (Computer science); Software engineering; Literatura científica; Visualització de documents; ArXiv; Grans models de llenguatge; LLM; Processament del llenguatge natural; PLN; Embeddings de text; TF-IDF; Reducció de la dimensionalitat; DR; t-SNE; Panell interactiu; Dash; Plotly; Scientific literature; Document visualization; Natural language processing; Text embeddings; Dimensionality reduction; Interactive dashboard; Plotly; Plotly; Dashboards (Gestió de sistemes d'informació); Tractament del llenguatge natural (Informàtica); Enginyeria de programari
Universitat Politècnica de Catalunya
Open Access
Treballs acadèmics [82541]