Multi-camera realtime human tracking applied to retail shops

Altres autors/es

Universitat Politècnica de Catalunya. Departament d'Enginyeria de Sistemes, Automàtica i Informàtica Industrial

Toni Vartrano

Chitas Ojeda, María Del Mar

Zaplana Agut, Isiah

Data de publicació

2025-06-30

Resum

El comerç físic s'enfronta a una pressió creixent per part del canal en línia, que disposa d'eines avançades per monitorar el trànsit i retenir-lo, fet que esdevé un avantatge diferencial. Per contra, les botigues topen amb més dificultats en aquest nou context, amb una clara manca d'informació sobre el flux de clients i la seva operativa, limitant l'optimització de l'espai i la presa de decisions estratègiques. Aquest treball presenta una prova de concepte (PoC) capaç de detectar la pose i seguir cada client en un entorn real i en temps real, mitjançant un enfocament basat en visió amb múltiples càmeres estèreo, dins d'un sistema integral edge-cloud que combina computació local i al núvol. El sistema local integra YOLOv11-pose per a la detecció de la pose, un model NvDCF per al seguiment intracàmera de subjectes, l'extracció de la posició 3D absoluta de cada client a partir d'imatges de profunditat i l'enviament de metadades en temps real mitjançant un canal segur amb Kafka. Per fusionar identificadors entre càmeres, es presenta la metodologia SESET (Single-Entrance Single-Exit Tracking), que permet la re-identificació i el seguiment multicàmera basats principalment en la distribució física de la botiga, la qual s'implementa al servidor. Finalment, el post-processament de les dades permet extreure els recorreguts dels clients i visualitzar-los en temps real en una plataforma web. Aquesta arquitectura ofereix un rendiment d'uns 15 FPS amb tres càmeres, mostrant les posicions de manera precisa amb una latència mínima. Els resultats obtinguts validen la PoC i demostren que la proposta és tècnica i conceptualment viable, possibilita l'escalabilitat i planteja reptes per a futurs projectes en aquest camp.


Physical retail faces rising pressure from online channels, which enjoy advanced tools for monitoring and retaining traffic—an important competitive advantage. Stores, by contrast, often lack reliable data on customer flow and in-store operations, restricting space optimization and strategic decision-making. This work presents a proof of concept (PoC) that detects human pose and tracks customers in realtime on a real scenario, using a vision-based approach with multiple stereo cameras in an end-to-end edge–cloud system that blends on-premise and cloud computing. Locally, the system integrates YOLOv11-pose for pose detection, an NvDCF model for intra-camera tracking, extraction of each customer’s absolute 3D position from depth images, and real-time transmission of metadata over a secure Kafka channel. To merge identities across cameras, it introduces the SESET (Single-Entrance Single-Exit Tracking) methodology, which enables multi-camera re-identification and tracking based on the store’s physical layout, which is implemented on the server. Post-processing then extracts customer paths, which can be visualized in real time on a web platform. The architecture delivers roughly 15 FPS with three cameras, accurately displaying positions with minimal latency. Experimental results validate the PoC, confirming its technical and conceptual viability, scalability, and the challenges it poses for future projects in this field.


El comercio físico se enfrenta a una creciente presión frente al canal online, el cual dispone de herramientas avanzadas para la monitorización del tráfico y su retención, lo que se convierte en una ventaja diferencial. En contraposición, las tiendas presentan mayores dificultades en este nuevo contexto, con clara falta de información sobre el flujo de clientes y su operativa, lo que limita la optimización del espacio y la toma de decisiones estratégicas. Este trabajo presenta un PoC (proof-of-concept) capaz de detectar la pose, seguir a cada cliente en un entorno real y en tiempo real, en un enfoque basado en la visión con múltiples cámaras estéreo, a través de un sistema integral edge-cloud, basado en computación en local y en la nube. El trabajo presenta un sistema local que integra, YOLOv11-pose para la detección de la pose, un modelo NvDCF para el seguimiento intracámara de sujetos, extracción de la posición 3D absoluta de cada cliente a partir de imágenes de profundidad y el envío de metadatos en tiempo real a través de un canal seguro utilizando Kafka. Para fusionar identificadores entre cámaras, se presenta la metodología SESET (Single-Entrance SingleExit Tracking), que permite la re-identificación y el seguimiento multi-cámara, basada principalmente en la distribución física de la tienda, la cual es implementada en el servidor. Finalmente, un posprocesamiento de los datos permite la extracción de caminos, con un sistema capaz de visualizarlos en tiempo real en una plataforma web. Esta arquitectura presenta un rendimiento de aproximadamente 15 FPS utilizando tres cámaras, siendo capaz de mostrar las posiciones de forma correcta con una latencia mínima. Se demuestran resultados que validan el PoC, concluyendo que la propuesta es viable técnica y conceptualmente, permitiendo la escalabilidad y presenta retos para futuros proyectos en este campo.

Tipus de document

Bachelor thesis

Llengua

Castellà

Publicat per

Universitat Politècnica de Catalunya

Citació recomanada

Aquesta citació s'ha generat automàticament.

Drets

Restricted access - confidentiality agreement

Aquest element apareix en la col·lecció o col·leccions següent(s)