Exploratory analysis of document collections

Colomer Xaus, Marc; Colomer Xaus, Marc

Exploratory analysis of document collections

Para acceder a los documentos con el texto completo, por favor, siga el siguiente enlace: https://hdl.handle.net/2117/449104

Autor/a

Colomer Xaus, Marc

Otros/as autores/as

Universitat Politècnica de Catalunya. Departament de Ciències de la Computació

Vázquez Alcocer, Pere Pau

Fecha de publicación

2025-06-25

Resumen

Aquest projecte presenta una pipeline integral per analitzar i visualitzar un gran corpus d'articles científics procedents d'arXiv. A partir dels textos complets i les metadades, es van generar embeddings de gran qualitat utilitzant diverses estratègies, i es van avaluar mitjançant tasques de classificació amb màquines de vectors de suport (SVM). Els resultats revelen que els embeddings derivats dels resums superen sistemàticament els basats en textos complets, tant en precisió com en eficiència computacional, destacant el valor de les representacions concises en la modelització semàntica a gran escala. Per permetre una exploració intuïtiva, els embeddings d'alta dimensionalitat es van reduir a dues dimensions mitjançant t-SNE, i es van enriquir les dades amb l'extracció de paraules clau basades en TF-IDF. El resultat final és un panell interactiu desenvolupat amb Dash i Plotly, que mostra un diagrama de dispersió 2D enriquit amb filtres dinàmics, cerca per paraules clau i panells detallats sobre articles, autors i categories. Tot i que la implementació a escala completa es va veure limitada per restriccions de rendiment, l'eina permet explorar relacions semàntiques, agrupacions temàtiques i tendències temporals, facilitant la comprensió textual a gran escala i proporcionant una base sòlida per a l'anàlisi escalable i centrat en l'usuari de la literatura científica.

This project presents a comprehensive pipeline for analyzing and visualizing a large corpus of scientific articles sourced from arXiv. Starting from raw full texts and metadata, high-quality document embeddings were generated using various strategies and evaluated through classification tasks with Support Vector Machines. A key finding reveals that embeddings derived from abstracts consistently outperform those based on full texts-both in accuracy and computational efficiency-highlighting the value of concise representations in large-scale semantic modeling. To enable intuitive exploration, the high-dimensional embeddings were reduced to two dimensions using t-SNE, and semantic richness was further improved through TF-IDF-based keyword extraction. The final output is an interactive web-based dashboard developed using Dash and Plotly, featuring a 2D scatterplot of the document space enriched with dynamic filtering, keyword-based search, and detailed panels for papers, authors, and categories. While full-scale deployment was limited by performance constraints, the tool successfully enables exploration of semantic relationships, thematic clusters, and temporal trends-facilitating large-scale textual sensemaking and providing an effective foundation for scalable, user-centered analysis of scientific literature.

Este proyecto presenta una pipeline integral para analizar y visualizar un gran corpus de artículos científicos procedentes de arXiv. A partir de los textos completos y metadatos, se generaron embeddings de alta calidad utilizando diversas estrategias, evaluadas posteriormente mediante tareas de clasificación con máquinas de vectores de soporte (SVM). Un hallazgo clave revela que los embeddings derivados de los resúmenes superan sistemáticamente a los basados en textos completos, tanto en precisión como en eficiencia computacional, lo que subraya el valor de las representaciones concisas en la modelización semántica a gran escala. Para facilitar una exploración intuitiva, los embeddings de alta dimensión se redujeron a dos dimensiones utilizando t-SNE, y la riqueza semántica se mejoró mediante la extracción de palabras clave basadas en TF-IDF. El resultado final es un panel interactivo desarrollado con Dash y Plotly, que presenta un diagrama de dispersión 2D enriquecido con filtros dinámicos, búsqueda por palabras clave y paneles detallados sobre artículos, autores y categorías. Aunque la implementación a escala completa estuvo limitada por restricciones de rendimiento, la herramienta permite explorar relaciones semánticas, agrupaciones temáticas y tendencias temporales, facilitando la comprensión textual a gran escala y proporcionando una base efectiva para el análisis escalable y centrado en el usuario de literatura científica.

Tipo de documento

Bachelor thesis

Lengua

Inglés

Publicado por

Universitat Politècnica de Catalunya

Citación recomendada

Esta citación se ha generado automáticamente.

Exportar

DIDL MARC MARC_CCUC METS OAI_DC ORE QDC RDF

Derechos

Open Access

Este ítem aparece en la(s) siguiente(s) colección(ones)

Treballs acadèmics [82541]

Exploratory analysis of document collections

Autor/a

Otros/as autores/as

Fecha de publicación

Compartir

Resumen

Tipo de documento

Lengua

Materias y palabras clave

Publicado por

Citación recomendada

Exportar

Derechos

Este ítem aparece en la(s) siguiente(s) colección(ones)