Multi-camera realtime human tracking applied to retail shops

dc.contributor
Universitat Politècnica de Catalunya. Departament d'Enginyeria de Sistemes, Automàtica i Informàtica Industrial
dc.contributor
Toni Vartrano
dc.contributor
Chitas Ojeda, María Del Mar
dc.contributor
Zaplana Agut, Isiah
dc.contributor.author
Moya Morera, Adrià
dc.date.issued
2025-06-30
dc.identifier
https://hdl.handle.net/2117/449477
dc.identifier
197991
dc.description.abstract
El comerç físic s'enfronta a una pressió creixent per part del canal en línia, que disposa d'eines avançades per monitorar el trànsit i retenir-lo, fet que esdevé un avantatge diferencial. Per contra, les botigues topen amb més dificultats en aquest nou context, amb una clara manca d'informació sobre el flux de clients i la seva operativa, limitant l'optimització de l'espai i la presa de decisions estratègiques. Aquest treball presenta una prova de concepte (PoC) capaç de detectar la pose i seguir cada client en un entorn real i en temps real, mitjançant un enfocament basat en visió amb múltiples càmeres estèreo, dins d'un sistema integral edge-cloud que combina computació local i al núvol. El sistema local integra YOLOv11-pose per a la detecció de la pose, un model NvDCF per al seguiment intracàmera de subjectes, l'extracció de la posició 3D absoluta de cada client a partir d'imatges de profunditat i l'enviament de metadades en temps real mitjançant un canal segur amb Kafka. Per fusionar identificadors entre càmeres, es presenta la metodologia SESET (Single-Entrance Single-Exit Tracking), que permet la re-identificació i el seguiment multicàmera basats principalment en la distribució física de la botiga, la qual s'implementa al servidor. Finalment, el post-processament de les dades permet extreure els recorreguts dels clients i visualitzar-los en temps real en una plataforma web. Aquesta arquitectura ofereix un rendiment d'uns 15 FPS amb tres càmeres, mostrant les posicions de manera precisa amb una latència mínima. Els resultats obtinguts validen la PoC i demostren que la proposta és tècnica i conceptualment viable, possibilita l'escalabilitat i planteja reptes per a futurs projectes en aquest camp.
dc.description.abstract
Physical retail faces rising pressure from online channels, which enjoy advanced tools for monitoring and retaining traffic—an important competitive advantage. Stores, by contrast, often lack reliable data on customer flow and in-store operations, restricting space optimization and strategic decision-making. This work presents a proof of concept (PoC) that detects human pose and tracks customers in realtime on a real scenario, using a vision-based approach with multiple stereo cameras in an end-to-end edge–cloud system that blends on-premise and cloud computing. Locally, the system integrates YOLOv11-pose for pose detection, an NvDCF model for intra-camera tracking, extraction of each customer’s absolute 3D position from depth images, and real-time transmission of metadata over a secure Kafka channel. To merge identities across cameras, it introduces the SESET (Single-Entrance Single-Exit Tracking) methodology, which enables multi-camera re-identification and tracking based on the store’s physical layout, which is implemented on the server. Post-processing then extracts customer paths, which can be visualized in real time on a web platform. The architecture delivers roughly 15 FPS with three cameras, accurately displaying positions with minimal latency. Experimental results validate the PoC, confirming its technical and conceptual viability, scalability, and the challenges it poses for future projects in this field.
dc.description.abstract
El comercio físico se enfrenta a una creciente presión frente al canal online, el cual dispone de herramientas avanzadas para la monitorización del tráfico y su retención, lo que se convierte en una ventaja diferencial. En contraposición, las tiendas presentan mayores dificultades en este nuevo contexto, con clara falta de información sobre el flujo de clientes y su operativa, lo que limita la optimización del espacio y la toma de decisiones estratégicas. Este trabajo presenta un PoC (proof-of-concept) capaz de detectar la pose, seguir a cada cliente en un entorno real y en tiempo real, en un enfoque basado en la visión con múltiples cámaras estéreo, a través de un sistema integral edge-cloud, basado en computación en local y en la nube. El trabajo presenta un sistema local que integra, YOLOv11-pose para la detección de la pose, un modelo NvDCF para el seguimiento intracámara de sujetos, extracción de la posición 3D absoluta de cada cliente a partir de imágenes de profundidad y el envío de metadatos en tiempo real a través de un canal seguro utilizando Kafka. Para fusionar identificadores entre cámaras, se presenta la metodología SESET (Single-Entrance SingleExit Tracking), que permite la re-identificación y el seguimiento multi-cámara, basada principalmente en la distribución física de la tienda, la cual es implementada en el servidor. Finalmente, un posprocesamiento de los datos permite la extracción de caminos, con un sistema capaz de visualizarlos en tiempo real en una plataforma web. Esta arquitectura presenta un rendimiento de aproximadamente 15 FPS utilizando tres cámaras, siendo capaz de mostrar las posiciones de forma correcta con una latencia mínima. Se demuestran resultados que validan el PoC, concluyendo que la propuesta es viable técnica y conceptualmente, permitiendo la escalabilidad y presenta retos para futuros proyectos en este campo.
dc.format
application/pdf
dc.language
spa
dc.publisher
Universitat Politècnica de Catalunya
dc.rights
Restricted access - confidentiality agreement
dc.subject
Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial
dc.subject
Àrees temàtiques de la UPC::Informàtica::Arquitectura de computadors::Arquitectures distribuïdes
dc.subject
Electronic commerce
dc.subject
Computer vision
dc.subject
Electronic data processing--Distributed processing
dc.subject
Visió per computador
dc.subject
Detecció de la pose
dc.subject
Comerç minorista
dc.subject
Analítica de comerç físic
dc.subject
Multicàmera
dc.subject
Temps real
dc.subject
Seguiment de persones
dc.subject
Edge
dc.subject
Cloud
dc.subject
NvDCF
dc.subject
Kafka
dc.subject
Trajectòria
dc.subject
Posició 3D
dc.subject
Imatge de profunditat
dc.subject
Botiga minorista
dc.subject
YOLO 11
dc.subject
NVIDIA
dc.subject
DeepStream
dc.subject
Jetson
dc.subject
PostgreSQL
dc.subject
Scala
dc.subject
Python
dc.subject
TypeScript
dc.subject
Computer vision
dc.subject
Pose detection
dc.subject
Retail
dc.subject
Physical retail analytics
dc.subject
Multi-camera
dc.subject
Real-time
dc.subject
Human tracking
dc.subject
Comerç electrònic
dc.subject
Visió per ordinador
dc.subject
Processament distribuït de dades
dc.title
Multi-camera realtime human tracking applied to retail shops
dc.type
Bachelor thesis


Files in this item

FilesSizeFormatView

There are no files associated with this item.

This item appears in the following Collection(s)