dc.contributor
Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
dc.contributor
Casas Pla, Josep Ramon
dc.contributor
Royo Royo, Santiago
dc.contributor.author
Lorente Corominas, Oscar
dc.identifier
https://hdl.handle.net/2117/329577
dc.identifier
ETSETB-230.153112
dc.description.abstract
Pedestrian detection algorithms have always revolved around RGB scene information, but relying solely on it can be dangerous in situations where conventional cameras don't capture reality properly. For this reason, in recent years, many researchers have studied other alternatives that complement these existing techniques, such as the use of ultrasonic sensors or radars, that provide more reliable information in those situations. Another approach is to use LIDAR sensors, which map reality into point clouds using pulses of light. However, there are few studies that propose pedestrian detection techniques using only the data provided by a LIDAR. In this thesis, we explore this approach through the design and implementation of a pedestrian detection system in 3D point clouds. To do so, we train the PointNet++ point cloud classification network in order to demonstrate that the 3D geometric information of a scene is essential for the neural network to learn properly. Specifically, to carry out supervised training we need to generate a pedestrian and non-pedestrian ground truth in point clouds, so we have designed a semi-automatic labeling system based on the detection in RGB images and the subsequent transfer of these labels to the 3D domain. As a result, we train PointNet++ and test its performance on an outdoor dataset, obtaining outstanding results of up to 99.4% of accuracy and 98.6% of recall. With these results we are firmly corroborating the hypothesis stated in the thesis that 3D geometric information is essential for a neural network to learn to detect pedestrians in outdoor scenes. Not only that, we also surpass the results provided by a conventional detector in RGB images: YOLO, which provides a 48% of recall in the same dataset, thus proving that geometric information should not be an alternative in these systems, but a must.
dc.description.abstract
Los algoritmos de detección de peatones basan sus principios en la información RGB de las escenas, lo que los convierte en sistemas poco fiables en condiciones atmosféricas desfavorables. Por este motivo, durante los últimos años se han estudiado alternativas que complementen este tipo de datos, desde el uso de sensores ultrasónicos y radares hasta los sensores LIDAR, que emiten pulsos de luz para mapear el entorno en forma de nubes de puntos tridimensionales. Algunos investigadores optan por combinar la información RGB proporcionada por las cámaras convencionales con la información geométrica que proporciona un LIDAR, pero hay muy pocos enfoques en que se explore únicamente la importancia de la información geométrica. Por este motivo, en esta tesis se presenta un sistema para detectar peatones en nubes de puntos 3D usando PointNet++ como clasificador en datasets de exteriores, con el objetivo de demostrar la relevancia que la información geométrica tiene en la percepción del entorno. Con tales fines, se diseña un sistema de etiquetaje en nubes de puntos semiautomático basado en la detección de peatones y no peatones en imágenes RGB y en la posterior transferencia de estas etiquetas al dominio 3D. Una vez generado este groundtruth de peatones y no peatones en nubes de puntos, lo usamos para entrenar a PointNet++, obteniendo unos resultados excelentes. La red neuronal proporciona una precisión y un recall de 99.4% y 98.6%, respectivamente, muy por encima del 48% de recall proporcionado por YOLO, un detector en imágenes RGB convencional, con los mismos datasets. De este modo, en esta tesis se prueba rotundamente que la información geométrica es un elemento esencial para comprender los elementos que nos rodean.
dc.description.abstract
L'exploració en el camp de la detecció de vianants en imatges RGB és un àmbit molt treballat desde fa anys, però dependre únicament de la informació fotomètrica d'una escena pot ser perillós en algunes situacions. Per aquest motiu, cada cop hi ha més interès en la detecció basada en altres tipus de dades: sensors ultrasònics, radars o els LIDAR, un tipus de sensor que fa un mapeig de la realitat en forma de núvols de punts mitjançant polsos de llum. La informació geomètrica que proporciona un núvol de punts pot ser molt útil en situacions on les imatges no són prou fiables (foscor, mal temps), i és per això que en aquesta tesi es presenta un sistema de detecció de vianants en núvols de punts 3D. Per demostrar la importància de la informació geomètrica a l'hora d'entendre el nostre entorn, es proposa entrenar PointNet++, una xarxa de classificació en núvols de punts, per tal de verificar la capacitat d'aquesta xarxa d'aprendre a diferenciar persones en datasets d'exteriors únicament a partir de la informació geomètrica. Amb aquest propòsit, es dissenya un sistema per generar un ground truth de vianants i no vianants a núvols de punts, mitjançant un etiquetatge semiautomàtic basat en la detecció en imatges RGB i la transferència d'aquestes deteccions als núvols de punts corresponents. D'aquesta manera, podem utilitzar un dataset lo suficientment extens i variat com perquè PointNet++ pugui aprendre d'ell. Un cop entrenada, la xarxa neuronal proporciona uns resultats excel·lents, arribant a una precisió i recall de fins a 99.4% i 98.6%, respectivament. Aquests valors superen totalment les deteccions de YOLO, un detector en imatges RGB convencional, provant així la hipòtesi definida a la tesi que la informació geomètrica és un element imprescindible per a reconèixer el nostre entorn.
dc.format
application/pdf
dc.publisher
Universitat Politècnica de Catalunya
dc.subject
Àrees temàtiques de la UPC::Enginyeria de la telecomunicació
dc.subject
Machine learning
dc.subject
Neural networks (Computer science)
dc.subject
Three-dimensional display systems
dc.subject
Computer vision
dc.subject
Artificial intelligence
dc.subject
Data acquisition
dc.subject
machine learning
dc.subject
artificial intelligence
dc.subject
image projection
dc.subject
computer vision
dc.subject
three-dimensional visualization
dc.subject
neural networks
dc.subject
Adquisició de dades
dc.subject
Aprenentatge automàtic
dc.subject
Xarxes neuronals (Informàtica)
dc.subject
Visualització tridimensional (Informàtica)
dc.subject
Visió per ordinador
dc.subject
Intel·ligència artificial
dc.title
Pedestrian detection in 3D point clouds using deep neural networks
dc.title
Detección de Peatones en Nubes de Puntos 3D usando Redes Neuronales
dc.title
Detecció de Vianants en Núvols de Punts 3D utilitzant Xarxes Neuronals