Universitat Politècnica de Catalunya. Departament de Ciències de la Computació
Belanche Muñoz, Luis Antonio
2025-10-13
La Feature selection és un pas crític en problemes de classificació d’alta dimensionalitat, on el nombre de variables sol superar el nombre de mostres. En aquest treball, estenem l’algorisme Support Vector Machine Recursive Feature Elimination (SVM-RFE) incorporant aproximacions de kernels mitjançant Random Fourier Features (RFF) i Orthogonal Random Features (ORF), proporcionant una explicació pràctica de com es pot aplicar RFF en aquest cas. Avaluem l’enfocament proposat en diversos conjunts de dades de referència, inclosos dades d’expressió gènica i classificació de text, comparant diferents kernels i configuracions d’hiperparàmetres. Es realitzen múltiples execucions amb diferents seeds aleatòries per avaluar l’estabilitat i la robustesa de les classificacions de característiques. Aquests resultats destaquen el potencial de les aproximacions aleatòries de kernels per escalar els mètodes no lineals de selecció de característiques a dades d’alta dimensionalitat de manera eficient, mantenint alhora una precisió de classificació competitiva.
Feature selection es un paso crítico en problemas de clasificación de alta dimensionalidad, donde el número de variables suele superar al número de muestras. En este trabajo, extendemos el algoritmo Support Vector Machine Recursive Feature Elimination (SVM-RFE) incorporando aproximaciones de kernels mediante Random Fourier Features (RFF) y Orthogonal Random Features (ORF), proporcionando una explicación práctica de cómo puede aplicarse RFF en este caso. Evaluamos el enfoque propuesto en varios conjuntos de datos de referencia, incluidos datos de expresión génica y clasificación de texto, comparando diferentes kernels y configuraciones de hiperparámetros. Se realizan múltiples ejecuciones con distintas seeds aleatorias para evaluar la estabilidad y robustez de las clasificaciones de características. Estos hallazgos destacan el potencial de las aproximaciones aleatorias de kernels para escalar los métodos no lineales de selección de características a datos de alta dimensionalidad de manera eficiente, manteniendo al mismo tiempo una precisión de clasificación competitiva.
Feature selection is a critical step in high-dimensional classification problems, where the number of variables often exceeds the number of samples. In this work, we extend the Support Vector Machine Recursive Feature Elimination (SVM-RFE) algorithm by incorporating kernel approximations using Random Fourier Features (RFF) and Orthogonal Random Features (ORF), providing a practical explanation of how RFF can be applied in this case. We evaluate the proposed approach on several benchmark datasets, including gene expression and text classification, comparing different kernels and hyperparameter settings. Multiple runs with varying random seeds are performed to assess the stability and robustness of the feature rankings. These findings highlight the potential of randomized kernel approximations to scale nonlinear feature selection methods to high-dimensional data efficiently, while maintaining competitive classification accuracy.
Master thesis
Anglès
Àrees temàtiques de la UPC::Matemàtiques i estadística; Automatic classification; Machine learning; Bioinformatics; Feature Selection; Support Vector Machine; Random Fourier Features; Recursive Feature Elimination; Orthogonal Random Features; Regularization path; Classificació automàtica; Aprenentatge automàtic; Bioinformàtica; Classificació AMS::62 Statistics::62H Multivariate analysis; Classificació AMS::62 Statistics::62H Multivariate analysis
Universitat Politècnica de Catalunya
http://creativecommons.org/licenses/by/4.0/
Open Access
Attribution 4.0 International
Treballs acadèmics [82545]