Title:
|
3D object recognition and pose estimation using feature descriptor regression in a Bayes' framework
|
Author:
|
Segura Morros, Sergi
|
Other authors:
|
Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions; Leibniz Universität Hannover; Fenzi, Michele |
Abstract:
|
[ANGLÈS] In this thesis, we have tried to find a suitable method to solve typical applications of pose recognition for cars, face, or facades. We have looked for efficient algorithms that allow us to solve the problem without the need of reconstructing a 3D model of the object and therefore, with a much lower computational load. The method mimics the first steps of a 3D reconstruction, where we need to take pictures of the object at different orientations, but, instead of building a computationally complex 3D model of the object, we use the information extracted in the feature descriptors of each image to estimate the feature appearance at unknown poses. We can take advantage of the fact that descriptors change their values when a change in the orientation of the object occurs, and predict the values at orientations for which the ground truth information is not available. The method is separated in two parts, the Off-line and the On-line Stage. In the Off-line Stage, we take pictures in a few known poses of the object to recognize, and we establish a track for each feature along the available images. For each feature track, we build a regression function that will estimate the value of the feature at unavailable poses. In the On-line Stage, a test image is input to the system. We extract its features and compare them with the features of the available training poses to establish correspondences. Once this matching is done, and following the principles on which SIFT features are matched, we compute the Euclidean distance between each feature in the track and the test image to find the most similar one. In order to achieve a more accurate result, we estimate the value of the feature at the poses that are not available by applying the regression function at those orientations. The pose estimation is conceived as an optimization problem as we have to minimize the error function given by the distance between the estimated descriptor and the current one. As the error function presents various local minima (the error function is not perfectly concave), we divide it into windows and then choose the global minimum among them, retrieving in this way the correct pose of the test image. The other main reason to divide the domain in sub-intervals is to maximize the number of tracks used. By embedding the minimization inside a Bayesian framework, we can estimate the probability of the actual pose given the feature descriptors of the test image. |
Abstract:
|
[CASTELLÀ] En esta tesis, se ha tratado de encontrar un método adecuado para resolver aplicaciones típicas tales como el reconocimiento de la orientación y posición de coches, caras o fachadas. Hemos buscado algoritmos eficientes que nos permitan resolver el problema sin la necesidad de reconstruir un modelo 3D del objeto y, por tanto, con un menor coste computacional. El método imita los primeros pasos de una reconstrucción en 3D, en el que son tomadas una serie de imágenes del objeto en diferentes orientaciones, pero, en vez de construir un modelo 3D computacionalmente complejo del objeto, se utiliza la información obtenida de los descriptores característicos de cada imagen para estimar la apariencia del descriptor en posiciones y orientaciones desconocidas. Podemos aprovechar el hecho de que los descriptores cambian sus valores cuando se produce un cambio en la orientación del objeto, y predecir los valores en orientaciones para los que la información original no está disponible. El método se separa en dos partes, la etapa "Off-line" y la etapa "On-line". En la etapa "Off-line", tomamos fotos del objeto a reconocer en unas orientaciones y posiciones conocidas, y realizamos un seguimiento de los descriptores a lo largo de las imágenes disponibles para crear un camino para cada uno. Para cada descriptor seguido, construimos una función de regresión que nos permitirá estimar el valor del descriptor en orientaciones y posiciones no disponibles. En la etapa "On-line", se introduce en el sistema una imagen de prueba. Extraemos sus descriptores característicos y los compararemos con los descriptores disponibles de las imágenes de entrenamiento para establecer correspondencias. Una vez establecidas, y siguiendo los principios con los que los descriptores SIFT son emparejados, se calcula la distancia euclídea entre cada descriptor en el camino y la imagen de prueba para encontrar el más parecido. Para conseguir un resultado más preciso, se estima el valor de los descriptores en las orientaciones y posiciones que no están disponibles mediante la función de regresión. La estimación de la orientación se concibe como un problema de optimización ya que debemos minimizar la función de error dado por la distancia entre el descriptor estimado y el actual. Como la función de error presenta varios mínimos locales (la función de error no es perfectamente cóncava), dividimos la función en ventanas y luego elegimos el mínimo global entre ellos, recuperando de esta manera la orientación correcta de la imagen de prueba. Esta división del dominio en sub-intervalos nos permite también maximizar el número de caminos usados, con lo que conseguiremos un valor del error más preciso. Al integrar esta minimización dentro de un marco bayesiano, se puede estimar la probabilidad de la orientación y posición actual dados los descriptores característicos de la imagen de prueba. |
Abstract:
|
[CATALÀ] En aquesta tesi, s'ha tractat de trobar un mètode adequat per resoldre aplicacions típiques tals com el reconeixement de l'orientació i posició de cotxes, cares o façanes. Hem buscat algoritmes eficients que ens permetin resoldre el problema sense la necessitat de reconstruir un model 3D de l'objecte i, per tant, amb un menor cost computacional. El mètode imita els primers passos d'una reconstrucció en 3D, en què son preses un seguit d'imatges de l'objecte en diferents orientacions, però, en comptes de construir un model 3D computacionalment complex de l'objecte, s'utilitza la informació obtinguda dels descriptors característics de cada imatge per estimar l'aparença del descriptor en posicions i orientacions desconegudes. Podem aprofitar el fet que els descriptors canvien els seus valors quan es produeix un canvi en l'orientació de l'objecte, i predir els valors en orientacions per als quals la informació original no està disponible. El mètode es separa en dues parts, l'etapa Off-line i l'etapa On-line. A l'etapa Off-line, prenem fotos de l'objecte a reconèixer en unes orientacions i posicions conegudes, i realitzem un seguiment dels descriptors al llarg de les imatges disponibles per crear un camí per cada un. Per a cada descriptor seguit, construïm una funció de regressió que ens permetrà estimar el valor del descriptor en orientacions i posicions no disponibles. En l'etapa On-line, s'introdueix en el sistema una imatge de prova. Extraiem els seus descriptors característics i els compararem amb els descriptors disponibles de les imatges d'entrenament per establir correspondències. Un cop establertes, i seguint els principis amb què els descriptors SIFT són aparellats, es calcula la distància euclidiana entre cada descriptor en el camí i la imatge de prova per tal de trobar el més semblant. Per aconseguir un resultat més precís, s'estima el valor dels descriptors en les orientacions i posicions que no estan disponibles mitjançant la funció de regressió. L'estimació de l'orientació es concep com un problema d'optimització ja que hem de minimitzar la funció d'error donat per la distància entre el descriptor estimat i l'actual. Com que la funció d'error presenta diversos mínims locals (la funció d'error no és perfectament còncava), dividim la funció en finestres i després triem el mínim global entre ells, recuperant d'aquesta manera l'orientació correcta de la imatge de prova. Aquesta divisió del domini en subintervals ens permet també maximitzar el nombre de camins usats, amb què aconseguirem un valor de l'error més precís. En integrar aquesta minimització dins d'un marc bayesià, es pot estimar la probabilitat de l'orientació i posició actual donats els descriptors característics de la imatge de prova. |
Subject(s):
|
-Àrees temàtiques de la UPC::Enginyeria de la telecomunicació::Processament del senyal::Processament de la imatge i del senyal vídeo -Àrees temàtiques de la UPC::Matemàtiques i estadística::Estadística matemàtica -Image processing--Digital techniques -Bayesian statistical decision theory -pose -estimation -SIFT -estimación -estimació -Imatges--Processament--Tècniques digitals -Estadística bayesiana |
Rights:
|
Attribution-NonCommercial-NoDerivs 3.0 Spain
http://creativecommons.org/licenses/by-nc-nd/3.0/es/ |
Document type:
|
Bachelor Thesis |
Published by:
|
Universitat Politècnica de Catalunya; Leibniz Universität Hannover
|
Share:
|
|