Actualmente, la seguridad de los ciudadanos e infraestructuras en espacios públicos y privados es uno de los principales temas de preocupación para la mayor parte de gobiernos e instituciones. Como ejemplo citar la ciudad de Londres donde se han implantado más de cuatro millones de cámaras que envían la señal a centros de control de seguridad, donde operadores humanos supervisan las imágenes recibidas para detectar situaciones anómalas que puedan conllevar peligro para los ciudadanos. Este hecho ha generado un intenso debate entre aquellos ciudadanos que se sienten más seguros con la presencia de estos dispositivos y aquellos que ven perturbada su intimidad.
En los últimos años, las nuevas tecnologías están influyendo notoriamente en el diseño de los sistemas de seguridad presentes en los centros de control, otorgando mayor robustez a los procesos de vigilancia y evitando situaciones desagradables o peligrosas. La Inteligencia Artificial está jugando un papel clave en la evolución de los sistemas de seguridad. Un buen ejemplo de ello se encuentra en el área del análisis de contenido de vídeo, también llamado vídeo cognitivo, que permite el análisis de las conductas o comportamientos de los objetos en movimiento detectados por el sistema. Esta técnica está cada vez más presente en los sistemas de vídeo-seguridad de última generación.
Los primeros sistemas de vídeo vigilancia fueron los sistemas CCTV (circuito cerrado de televisión), los cuales están constituidos por una red de cámaras que envían la señal a una sede central, donde el personal de seguridad puede observar lo que ocurre a través de un panel formado por varios monitores. Sin embargo, hay estudios experimentales que demuestran empíricamente que el rendimiento de una persona observando un monitor disminuye notablemente tras 20 minutos de vigilancia. Por tanto, la vídeo vigilancia tradicional tiene ciertas dificultades para cumplir con las, cada vez mayores, demandas del sector. Es decir, los sistemas de seguridad deberían dejar de ser simples y reactivos para convertirse en sistemas inteligentes y proactivos.
Surge así la necesidad de crear sistemas de seguridad inteligentes para mejorar la efectividad de los sistemas tradicionales y aliviar la carga de los operadores humanos. En las dos últimas décadas la comunidad científica ha propuesto diversos algoritmos, técnicas y modelos que han dado lugar a sistemas de segunda y tercera generación (aún en fase de experimentación). Los sistemas de segunda generación combinan las tecnologías de los sistemas CCTV y vigilancia IP con algoritmos de Visión por Computador e Inteligencia Artificial, mientras que los sistemas de tercera generación se caracterizan por ser altamente distribuidos y conservar las propiedades de los sistemas pertenecientes a la segunda generación. El fin que se pretende conseguir con este tipo de sistemas es que se proporcione una buena interpretación de la escena a estudiar y que sólo en los momentos necesarios se llame la atención del operador humano en tiempo real.
En la actualidad, la vídeo vigilancia inteligente es una línea de investigación en continuo crecimiento. Más de una docena de contratos de investigación han sido otorgados a laboratorios y universidades con el objetivo de acelerar los procesos de investigación en las técnicas de análisis de vídeo, como es el caso de los grupos de visión, inteligencia artificial y robótica de las universidades de Leeds y Kingston en Inglaterra y el Grupo de Investigación Nacional Inria en Francia.
Los sistemas de vigilancia comerciales actuales tienen como gran problema una gran dependencia de la actividad humana para la detección de situaciones anómalas. Los más avanzados en el ámbito comercial tienen la capacidad de automatizar algunas de las tareas que realizan los agentes de seguridad humanos, como por ejemplo, la detección de objetos móviles en la escena (proceso de segmentación), seguimiento de los mismos (proceso de tracking), detección de intrusiones en áreas vigiladas o identificación de personas a partir de sus características faciales. Existen otros sistemas, aún en fase de experimentación y desarrollo, que permiten un análisis más avanzado mediante la inclusión de técnicas de Inteligencia Artificial y Visión por Computador.
Sin embargo, este tipo de sistemas presenta dos problemas importantes: escasez de flexibilidad y escalabilidad en el análisis de comportamientos y eventos a partir de la información procedente de los sensores. La mayoría de ellos se centran en el estudio de un aspecto de la vigilancia (velocidad de los objetos, trayectorias que siguen, acciones que llevan a cabo, etc) sin preocuparse de cómo combinar estos análisis para obtener una percepción general de lo que sucede en el entorno, y de proporcionar mecanismos para facilitar la inclusión de nuevos tipos de análisis. Por ejemplo, si un sistema de vigilancia inteligente tiene la capacidad para analizar las trayectorias y las velocidades de los objetos a partir de información visual procedente de las cámaras, el comportamiento de un determinado objeto será normal siempre y cuando éste siga una trayectoria adecuada y a una velocidad apropiada. En este caso se combinan dos tipos de análisis para determinar finalmente si el comportamiento de un objeto es normal. Si en un futuro se añade un nuevo análisis para analizar el comportamiento de los objetos en los accesos a los edificios, la normalidad del comportamiento de los objetos detectados en la escena pasará a depender de tres tipos de análisis.
Un tercer problema es el hecho de que gran parte de las personas encargadas de diseñar un sistema de seguridad optan por representar únicamente situaciones anómalas muy concretas. El problema de esta aproximación es que muchas de las situaciones anómalas que pueden suceder en un entorno son imprevisibles, por tanto, cuando sucede una situación anómala que no ha sido definida a priori el sistema es incapaz de responder ante ésta. Por este motivo, puede resultar interesante diseñar un modelo que permita definir o aprender las situaciones normales de cualquier entorno junto con las situaciones anómalas más comunes. De esta forma, la peor situación aparece cuando una situación anómala sucede y no ha sido definida previamente, pero al menos el sistema es consciente de que dicha situación no es normal. Además la mayoría de estos sistemas otorgan casi toda la importancia a la creación y prueba de algoritmos de procesamiento de imágenes, con el fin de realizar detección y seguimiento de objetos. Son más escasos los sistemas que intentan incorporar inteligencia dándole mayor énfasis a la etapa de análisis del comportamiento de objetos. Sin embargo, esta etapa es la más útil en el proceso de vigilancia, ya que los resultados de la misma pueden servir al operador como herramienta de ayuda en su trabajo. Los sistemas de análisis de contenido mediante técnicas de inteligencia artificial ofrecen detección automática en tiempo real, identificación y análisis de amenazas potenciales, permitiendo que estos tipos de sistemas sean mucho más potentes.
El cuarto problema está directamente relacionado con la construcción de las bases de conocimiento donde se modela el entorno observado. Los sistemas de vigilancia avanzados necesitan conocimiento experto para poder interpretar las señales que proceden de los sensores y determinar si la situación actual en el entorno es normal o no lo es. Normalmente los expertos en el dominio son los encargados de llevar a cabo esta tarea tediosa y nada trivial. El inconveniente es que desde que se implanta el sistema hasta que éste ofrece una fiabilidad alta, los expertos deben realizar numerosas modificaciones sobre la base de conocimiento original. A este hecho hay que añadir que la mayoría de entornos a monitorizar son dinámicos, los cuales pueden variar sus condiciones ambientales con relativa facilidad de tal forma que el modelo que representa internamente a dicho entorno debe variar también para que las interpretaciones sigan siendo correctas. Por tanto, para poder eliminar esta dependencia es necesario dotar al sistema de capacidad para ampliar y modificar su base de conocimiento por sí mismo, es decir, reemplazar en la medida de lo posible al experto humano en esta tarea mediante el uso de algoritmos de aprendizaje automático.
El cuarto problema está directamente relacionado con la construcción de las bases de conocimiento donde se modela el entorno observado. Los sistemas de vigilancia avanzados necesitan conocimiento experto para poder interpretar las señales que proceden de los sensores y determinar si la situación actual en el entorno es normal o no lo es. Normalmente los expertos en el dominio son los encargados de llevar a cabo esta tarea tediosa y nada trivial. El inconveniente es que desde que se implanta el sistema hasta que éste ofrece una fiabilidad alta, los expertos deben realizar numerosas modificaciones sobre la base de conocimiento original. A este hecho hay que añadir que la mayoría de entornos a monitorizar son dinámicos, los cuales pueden variar sus condiciones ambientales con relativa facilidad de tal forma que el modelo que representa internamente a dicho entorno debe variar también para que las interpretaciones sigan siendo correctas. Por tanto, para poder eliminar esta dependencia es necesario dotar al sistema de capacidad para ampliar y modificar su base de conocimiento por sí mismo, es decir, reemplazar en la medida de lo posible al experto humano en esta tarea mediante el uso de algoritmos de aprendizaje automático.
Finalmente, los sistemas de seguridad deben ofrecer respuestas en tiempo real con el objetivo de reducir al máximo los daños ocasionados por la ocurrencia de situaciones anómalas. Gran parte de los algoritmos propuestos en la literatura ofrecen buenos resultados en el proceso de interpretación de escenas reales, sin embargo, invierten demasiado tiempo en la obtención de los resultados. Por otro lado, existen algoritmos que ofrecen peores resultados pero, en cambio, ofrecen sus respuestas en menor tiempo. Por tanto, a partir de este problema surge la necesidad de buscar un equilibrio entre fiabilidad y tiempo de respuesta.
El grupo de investigación AIR investiga desde hace más de 8 años en la inclusión de nuevas tecnologías y métodos de análisis automáticos en los sistemas de vigilancia, con el objetivo de ofrecer soluciones a los problemas planteados anteriormente. En este documento se hará especial hincapié en los hitos alcanzados durante este periodo de investigación en el análisis automático de comportamientos y eventos, sin la necesidad de la interacción continua de agentes humanos.
Proponemos la creación de sistemas de vigilancia avanzados basados en el uso de componentes de normalidad independientes y fácilmente reutilizables. Cada componente de normalidad especifica como debería comportarse correctamente cada entidad con capacidad de acción en el entorno de acuerdo a un aspecto de vigilancia
La primera capa que se muestra en el gráfico inferior, corresponde con la capa sensorial donde encuentran los sensores encargados de captar cualquier cambio de estado en el entorno vigilado. La información procedente de los sensores puede ser enviada directamente a la capa intermedia (si no necesita procesamiento previo), o bien, ser procesada por diferentes tipos de algoritmos para la generación de información espacio-temporal, como por ejemplo, algoritmos de segmentación, tracking, análisis de audio o clasificación de objetos en movimiento.
Por otro lado, existe un flujo continuo de comunicación entre la capa inferior y la capa intermedia. Ésta última, recibe en cada momento la información espacio-temporal relativa a cada uno de los objetos detectados en la escena, que ha sido procesada en la capa inferior. Una división clara de estas capas permite que el análisis de sucesos sea independiente de los algoritmos empleados para procesar las señales y facilita la reutilización de conocimiento experto. Es decir, el cambio de algoritmos para el procesamiento de señales no tendría por qué influir en la forma de analizar o determinar si una situación es normal o no lo es.
El principal objetivo de la capa o nivel intermedio es interpretar lo que sucede en el entorno monitorizado y clasificar cada una de las situaciones como normales o anómalas para la activación de las alarmas y ofrecer soporte en la toma de decisiones. Para ello, se define la normalidad del entorno y las situaciones anómalas más comunes. La peor situación que puede ocurrir con este enfoque es que suceda una situación anómala que no ha sido definida previamente, pero al menos, el sistema es consciente de que ”algo”' sospechoso o no normal está sucediendo en el momento actual. Definir la normalidad de manera general en todo el entorno global puede ser una tarea demasiado complicada e incluso inabordable. Por este motivo, se han desarrollado por la fragmentación del problema en problemas de menor complejidad: el entorno se divide en entornos más pequeños (zonas específicas del entorno observadas por ciertos sensores) donde el número de posibles situaciones que pueden suceder es acotado, y se realiza la división del análisis de normalidad en análisis específicos mediante el uso de componentes de normalidad.
Finalmente, en la última capa se utiliza la información procedente de la capa intermedia para ofrecer ayuda al personal de seguridad en la toma de decisiones ante situaciones críticas. En esta capa se encuentran las herramientas de monitorización donde el personal de seguridad puede controlar el estado actual del sistema y del entorno vigilado. Actualmente no existen soluciones que ofrezcan las suficientes garantías como para sustituir completamente a los agentes humanos pero, sin embargo, este tipo de sistemas sí que pueden resultar de gran ayuda para reducir la carga de trabajo en operadores humanos y ofrecer consejos o proponer soluciones en situaciones complejas donde se han desencadenado una sucesión de situaciones anómalas.
El desarrollo de sistemas de vigilancia basados en componentes de normalidad presenta alguna de las siguientes ventajas:
El componente utiliza información visual procedente de las cámaras de seguridad para determinar si la trayectoria que sigue cada objeto en la escena es normal, o en cambio, es anómala con cierto grado de riesgo.
Información de entrada: procesos de segmentación y tracking
Información de salida:
El componente tiene asociado herramientas de adquisición de conocimiento para la definición de zonas del entorno y las trayectorias normales.
El componente utiliza información visual procedente de las cámaras de seguridad para determinar si cada objeto circula a una velocidad apropiada. Para ello, el componente estudia el desplazamiento del objeto entre frames consecutivos.
Información de entrada: procesos de segmentación y tracking
Información de salida:
Este componente, a diferencia del componente anterior, tiene asociado algoritmos para el aprendizaje automático de las velocidades apropiadas en cada entorno.
El componente diferencia entre peatones y vehículos, y determina si estos últimos cumplen con las normas de tráfico establecidas para los pasos de peatones no regulados mediante semáforos.
Información de entrada: procesos de segmentación y tracking
Información de salida:
El componente diferencia entre peatones y vehículos, y determina si estos últimos cumplen con las normas de tráfico establecidas para los pasos de peatones no regulados mediante semáforos.
Además de los componentes de normalidad, herramientas de adquisición de conocimiento y algoritmos de aprendizaje automático, se han desarrollado herramientas de monitorización para observar el análisis realizado por cada uno de los componentes de normalidad. El principal objetivo de este tipo de herramientas es comprobar el correcto funcionamiento de los componentes de normalidad.