Altres autors/es

Universitat Politècnica de Catalunya. Departament de Ciències de la Computació

Belanche Muñoz, Luis Antonio

Data de publicació

2025-10-13



Resum

La Feature selection és un pas crític en problemes de classificació d’alta dimensionalitat, on el nombre de variables sol superar el nombre de mostres. En aquest treball, estenem l’algorisme Support Vector Machine Recursive Feature Elimination (SVM-RFE) incorporant aproximacions de kernels mitjançant Random Fourier Features (RFF) i Orthogonal Random Features (ORF), proporcionant una explicació pràctica de com es pot aplicar RFF en aquest cas. Avaluem l’enfocament proposat en diversos conjunts de dades de referència, inclosos dades d’expressió gènica i classificació de text, comparant diferents kernels i configuracions d’hiperparàmetres. Es realitzen múltiples execucions amb diferents seeds aleatòries per avaluar l’estabilitat i la robustesa de les classificacions de característiques. Aquests resultats destaquen el potencial de les aproximacions aleatòries de kernels per escalar els mètodes no lineals de selecció de característiques a dades d’alta dimensionalitat de manera eficient, mantenint alhora una precisió de classificació competitiva.


Feature selection es un paso crítico en problemas de clasificación de alta dimensionalidad, donde el número de variables suele superar al número de muestras. En este trabajo, extendemos el algoritmo Support Vector Machine Recursive Feature Elimination (SVM-RFE) incorporando aproximaciones de kernels mediante Random Fourier Features (RFF) y Orthogonal Random Features (ORF), proporcionando una explicación práctica de cómo puede aplicarse RFF en este caso. Evaluamos el enfoque propuesto en varios conjuntos de datos de referencia, incluidos datos de expresión génica y clasificación de texto, comparando diferentes kernels y configuraciones de hiperparámetros. Se realizan múltiples ejecuciones con distintas seeds aleatorias para evaluar la estabilidad y robustez de las clasificaciones de características. Estos hallazgos destacan el potencial de las aproximaciones aleatorias de kernels para escalar los métodos no lineales de selección de características a datos de alta dimensionalidad de manera eficiente, manteniendo al mismo tiempo una precisión de clasificación competitiva.


Feature selection is a critical step in high-dimensional classification problems, where the number of variables often exceeds the number of samples. In this work, we extend the Support Vector Machine Recursive Feature Elimination (SVM-RFE) algorithm by incorporating kernel approximations using Random Fourier Features (RFF) and Orthogonal Random Features (ORF), providing a practical explanation of how RFF can be applied in this case. We evaluate the proposed approach on several benchmark datasets, including gene expression and text classification, comparing different kernels and hyperparameter settings. Multiple runs with varying random seeds are performed to assess the stability and robustness of the feature rankings. These findings highlight the potential of randomized kernel approximations to scale nonlinear feature selection methods to high-dimensional data efficiently, while maintaining competitive classification accuracy.

Tipus de document

Master thesis

Llengua

Anglès

Publicat per

Universitat Politècnica de Catalunya

Citació recomanada

Aquesta citació s'ha generat automàticament.

Drets

http://creativecommons.org/licenses/by/4.0/

Open Access

Attribution 4.0 International

Aquest element apareix en la col·lecció o col·leccions següent(s)