Proyectos

2026 · En solitario · sistema de visión por computador

Visión en tiempo real para seguridad laboral

Detección de caídas en entornos industriales que corre en directo sobre una sola GPU de gama media — pose, seguimiento, segmentación y un modelo temporal tras un único servicio observable, sin cifras inventadas.

El problema

La monitorización industrial necesita detectar la caída de un trabajador en el momento en que ocurre, sobre hardware que una planta pueda permitirse: una sola GPU de gama media, no un clúster. Lo difícil no es un modelo que clasifique caídas offline; es un pipeline que ingiere un stream en directo, mantiene la latencia bajo control y es honesto sobre qué es inferencia real y qué es un recurso de respaldo.

Enfoque y compromisos

Sentinel Vision es un único servicio FastAPI observable, no un notebook. Cada fotograma pasa por YOLO26-Pose → seguimiento de identidad con ByteTrack → máscaras de SAM 2.1 (solo se invoca en tracks nuevos, obsoletos o inciertos, para ahorrar la llamada costosa cuando nada cambia) → un transformer de esqueleto por persona que lee la acción sobre una ventana temporal.

Las decisiones de ingeniería buscan mantener honesto un sistema en vivo:

La cabeza temporal se entrena con el UR Fall Detection Dataset usando una partición por secuencias — las caídas de validación nunca se ven en entrenamiento, así que la puntuación significa algo.

Resultados

Lo que señalaría

Cada cifra de FPS y VRAM se mide en una GPU concreta y nombrada — nada se extrapola de una tarjeta mayor. El zero-copy real de decodificación a inferencia se acota con honestidad a una frontera DeepStream que el build portable no reclama; el readiness informa de la ruta de decodificación activa en vez de fingir que no pasa por PCIe.