OBSERVE: Vigilancia a Bordo para una Respuesta Efectiva en Ambientes Vehiculares

Resumen

Aunque aún hay mucho por aprender acerca de cómo el sistema de visión del humano funciona, lo que es un hecho, es que tenemos una habilidad significativa para entender el mundo a nuestro alrededor a través de nuestra percepción visual. En particular, tenemos una habilidad bien desarrollada para entender el mundo de la actividad humana (como el reconocimiento de caras, emociones, detección y seguimiento de personas, re-identificación de personas que vimos anteriormente, interpretación de gestos, reconocimiento de posturas y acciones, entre otros). La combinación del ojo (el sensor) y el cerebro puede realizar muchas de estas cosas rápidamente, presuntamente debido a que dicha habilidad es crucial en nuestro desarrollo evolutivo y para nuestro aprendizaje personal para adaptarnos al mundo que nos rodea. En consecuencia, muchas de las tareas que llevamos a cabo diariamente dependen en mayor grado de nuestra capacidad para razonar acerca de lo que hacen otros seres humanos. Esto es tal en todo momento de nuestro diario vivir: en el trabajo (una larga actividad social), en casa, jugando juegos, en la calle, en el transporte público, al ver una película y al aprender nuevas habilidad con otros seres humanos. Luego, si deseamos crear máquinas que sean capaces de asistir a humanos en su ambiente, debemos llevar a cabo algoritmos robustos de visión por computador con el fin de emular por lo menos algunas de nuestras capacidades visuales a la hora de interpretar escenas donde los seres humanos son los principales actores.

A lo largo de la última década y más, ha habido un creciente interés en este tópico y un progreso sustancial. Por ejemplo, en el campo de la Vigilancia Visual (comúnmente vinculado a necesidades de seguridad para proteger lugares públicos o privados) donde el énfasis ha estado en identificar y seguir personas e inferir su comportamiento solo con saber dónde están (por ejemplo en un área prohibida), o cuánto tiempo han estado en algún lugar y las trayectorias que ellos siguen (seguimiento). A pesar de esto, queda mucho por hacer antes de desarrollar algoritmos y sistemas que sean lo suficientemente avanzados y robustos para ser usados en el mundo real. Un campo relativamente nuevo de investigación es conocido como Reconocimiento de Acción Humana donde lo que se trata de comprender es lo que un sujeto está haciendo típicamente en términos de acciones elementales como caminar, correr, saltar, etc. Actualmente, el progreso se ha limitado principalmente a restringir escenarios que envuelvan a un único sujeto (por ejemplo, como una interfaz visual para juegos de computación).

En este proyecto (que envuelve colaboración internacional con la universidad University College Lindon, Kingston University and INRIA), nos proponemos a mover el estado del arte hacia el entendimiento de las acciones humanas y su interacciones (múltiples actores).

Hemos tomado un desafío particular bajo un escenario con restricciones físicas con cámaras dispuestas en el interior de un vehículo del transporte público (tren, bus). Este tipo de ambientes también presenta la dificultad adicional de presentar una rápida variación de condiciones de lumínicas. En consecuencia, lo llamaremos Close View Varying Illumination Enviroments (CVIEs). Debiese notarse que a pesar de considerar el interior de un vehículo como el principal objetivo de la aplicación para proveer de un foco de trabajo bien definido, el desafío del CVIE también ocurre en otros ambientes como el trabajo, laboratorios de aprendizaje de habilidades especializadas y en el hogar (domótica) habilitando potencialmente el progreso en Inteligencia de Ambientes y Visa Asistida. Se espera que los métodos desarrollados aquí puedan ser extendidos a situaciones con cámaras movibles.

Específicamente, los objetivos principales de esta investigación son encontrar respuestas a las siguientes preguntas:

1. ¿Cómo encontrar personas de forma robusta, incluso cuando está bloqueada y en posiciones distintas en problemas CVIEs?

2. ¿Cómo reconocer acciones elementales de una única personas y luego, reconocer conductas simples en CVIEs?

3. ¿Cómo reconocer interacciones para detectar comportamientos complejos como «el robo de un celular» en CVIEs?

Metodología: El trabajo identificará el estado del arte y evaluará su rendimiento para dos bases de datos públicas disponibles: MuHaVi (un set de datos respecto al reconocimiento de acciones elementales ocupando una multicámara creada por quien propone el tema y su equipo, y actualmente utilizada por más de 150 investigadores en el mundo) y BOSS (un conjunto de datos multicámara respecto de conductas complejas de sujetos grabadas dentro de trenes en movimiento, que perteneció a un proyecto antiguo en USA), enriquecido por datos adicionales para ser grabados en un bus de London (en colaboración con University College London) y usando sensores de profundidad (en colaboración con la Universidad de Los Andes). Las indicaciones iniciales son que los métodos propuestos por el antiguo equipo de trabajo de quien propone (kingston University) y los colaboradores en Zaragoza para la detección de personas y el reconocimiento de acciones sean competitivos, pero justos en el rendimiento requerido para el uso en esta área. Por consiguiente, podrán ser mejorados y asistidos utilizando criterios de rendimiento reconocido (por ejemplo, precisión, rellamado y matrices de confusión).

Las salidas esperadas incluyen un nuevo set de algoritmos probados con datos realistas, la publicación de dos nuevos conjuntos de datos para la comunidad de investigadores mundiales, publicaciones en las revistas ISI, entrenamiento para ingenieros/investigadores jóvenes en este campo, consolidación de los vínculos colaborativos con equipos internacionales, difusión entre potenciales usuarios para crecer una conciencia del potencial de esta tecnología y habilitar la posible colaboración en programas como FONDEF, para participar en la organización de un «concurso» (utilizando estas bases de datos) como parte de una conferencia internacional (como son ICPR o ICDP debido a lo que ha realizado en el pasado quien propone) y, finalmente incrementar el nivel de actividad de la comunidad nacional de visión por computador (para lo cuál quien propone tiene buenos vínculos)

Abstract

Although there is still plenty to learn about how the human vision system works, what is certain is that we have a significant ability to understand the world around us through visual perception. In particular, we have a well developed ability to understand the world of human activity (such as location of faces, recognition of emotion, detection and tracking of people, re-identification of people we have seen before, interpretation of gestures, recognition of postures and actions, and so on). The combination of eye (the sensor) and brain can do many of these tasks very quickly, presumably because such ability was crucial in our evolutionary development and for our own personal learning to adapt to the world that surrounds us. Consequently, many of the tasks we carry out on a daily basis depend heavily on our capacity to reason about what other humans are doing. This is so in all the spheres of our daily endeavors: at work (a largely social activity), at home, playing games, in the streets, in the public transport network, when watching a film and when learning new skills with other fellow humans. It then follows that if we are to realize ubiquitous machines that are able to support human beings in their normal environments, we have to come up with robust computer vision algorithms able to emulate at least some of our visual capabilities when it comes to interpreting scenes where other human beings are the main actors.

Over the last decade or so, there has been a growing interest in this topic and substantial progress for example in the field of Visual Surveillance (normally linked to security needs to protect public or private places) where the emphasis has been on locating and tracking people and inferring behavior only from where they are (e.g. in a forbidden area), or how long they have been somewhere (loitering) and the trajectories they follow (tracking). Nevertheless, much remains to be done before proposed algorithms and systems that are advanced and robust enough to be used in the real-world. A relatively new field is known as Human Action Recognition where what we try to understand is what a subject is doing typically in terms of elemental actions such as walking, running, jumping, etc. Currently, progress has been mainly limited to simple constrained scenarios involving a single willing subject (e.g. as in visual interfaces for computer games).

In this project (that involves international collaboration with University College London, Kingston University and INRIA), we intend to move the state-of-the-art forward in understanding human action and interaction (multiple actors). We have taken a particularly challenging scenario of a physically-constrained environment with close (near) camera views typified by the interior of a public transport vehicle (train, bus). This type of environment also presents the additional difficulty of the presence of rapidly changing lighting conditions. Consequently we call these Close View Varying Illumination Environments (CVIEs). It should be noted that although we are considering vehicle interiors as the main target applications to provide a well-defined focus for the work, the CVIE challenge also occurs in other environments such as work, specialized skills training labs and home (domotics) potentially enabling progress in Ambient Intelligence and Assisted Living. It is also expected that the methods developed here could be extended to situations with moving cameras. More specifically, the main objectives of the research are to find answers to the following questions:

1. How to robustly detect people, even when occluded and in different poses, in CVIEs

2. How to recognize elemental single-person actions and then simple behaviors in CVIEs

3. How to recognize interactions to detect complex behaviors such as “mobile phone stealing” in CVIEs

Methodology: The work will identify the state-of-the-art and evaluate their performance for two specific publicly available datasets: MuHaVi (an multi-camera elemental action recognition dataset created by the proposer and his team and currently used by more than 150 researchers worldwide) and BOSS (a multi-camera dataset of complex multiple actor behavior recorded inside moving trains, part of a past EU project), enriched by additional data to be recorded on a London bus (in collaboration with University College London) and using depth sensors (in collaboration with the University of Los Andes). Initial indications are that methods proposed by the proposer’s recent past team (Kingston University) and collaborators in Zaragoza for people detection and action recognition are competitive but still short of the required performance for use in the field. Thus they will be improved and assessed using recognized performance criteria (e.g. precision, recall, confusion matrices).

Expected outcomes include a new set of algorithms tested on realistic datasets, publication of two new datasets for the worldwide research community, publications on ISI journals and conferences, training of young researchers/engineers in this popular field, consolidation of collaboration links with international teams, dissemination among potential end- users to raise awareness of the potential of this technology and to enable possible collaboration in programmes such as FONDEF, to participate in the organization of a “contest” (using these datasets) as part of an international conference (such as ICPR or ICDP as has been done in the past by the proposer) and, finally, to increase the level of activity in the national computer vision community (with whom the proposer has good links).