Multiple feature temporal models for the characterization of semantic video contents

La estructura de alto nivel del video se puede obtener a partir de conocimiento sobre el dominio mas una representacion de los contenidos que proporcione informacion semantica. En este contexto, las representaciones de la semantica de nivel medio vienen dadas en terminos de caracteristicas de bajo nivel y de la informacion que expresan acerca de los contenidos del video. Las representaciones de nivel medio permiten obtener de forma automatica agrupamientos semanticamente significativos de los shots, que son posteriormente utilizados conjuntamente con conocimientos de alto nivel especificos del dominio para obtener la estructura del video. En general, las representaciones de nivel medio tambien dependen del dominio. Los descriptores que forman parte de la representacion estan especificamente disenados para una aplicacion concreta, teniendo en cuenta los requisitos del dominio y el conocimiento que tenemos del mismo. En esta tesis se propone una representacion de nivel medio de los contenidos videograficos que permite obtener agrupamientos de shots que son semanticamente significativos. Esta representacion no depende del dominio, y sin embargo aporta la informacion necesaria para obtener la estructura de alto nivel del video, gracias a la combinacion de las contribuciones de diferentes caracteristicas de bajo nivel de las imagenes a la semantica de nivel medio. La semantica de nivel medio se encuentra implicita en las caracteristicas de bajo nivel, dado que un concepto semantico concreto genera una combinacion especifica de valores de las mismas. El problema consiste en "tender un puente sobre el vacio" entre las caracteristicas de bajo nivel que se observan y sus correspondientes conceptos semanticos de nivel medio ocultos. Para establecer relaciones entre estos dos niveles, se utilizan tecnicas de vision por computador y procesamiento de imagenes. Otras disciplinas como la cinematografia y la semiotica tambien proporcionan pistas importantes para determinar como se usan las caracteristicas de bajo nivel para crear conceptos semanticos. Una descripcion adecuada de las caracteristicas de bajo nivel puede proporcionar una representacion de sus correspondientes contenidos semanticos. Mas en concreto, el color resumido en un histograma se utiliza para representar la apariencia de los objetos. Cuando el objeto es el fondo de la escena, su color aporta informacion sobre la localizacion. De la misma manera, en esta tesis se analiza la semantica que transmite una descripcion del movimiento. Las caracteristicas de movimiento resumidas en una matriz de coocurrencias temporales proporcionan informacion sobre las operaciones de la camara y el tipo de toma (primer plano, etc.) en funcion de la distancia relativa entre la camara y los objetos filmados. La principal contribucion de esta tesis es una representacion de los contenidos visuales del video basada en el resumen del comportamiento dinamico de las caracteristicas de bajo nivel como procesos temporales descritos por cadenas de Markov. Los estados de la cadena de Markov vienen dados por los valores observados de una caracteristica de bajo nivel. A diferencia de las representaciones de los shots basadas en keyframes, el modelo de cadena de Markov considera informacion de todos los frames del shot en la misma representacion. Las medidas de similitud naturales en un marco probabilistico, como la divergencia de Kullback-Leibler, pueden ser utilizadas para comparar cadenas de Markov y, por tanto, el contenido de los shots que representan. En la misma representacion se pueden combinar multiples caracteristicas de las imagenes mediante el acoplamiento de sus correspondientes cadenas. Esta tesis presenta diferentes formas de acoplar cadenas de Markov, y en particular la llamada Cadenas Acopladas de Markov (Coupled Markov Chains, CMC). Tambien se detalla un metodo para encontrar la estructura de acoplamiento optima en terminos de coste minimo y minima perdida de informacion, ya que esta merma se relaciona directamente con la perdida de precision de la estructura acoplada para representar contenidos de video. Durante el proceso de calculo de las representaciones de los shots se detectan las fronteras entre estos usando el mismo modelo y medidas de similitud. Cuando las caracteristicas de color y movimiento se combinan, la representacion en cadenas acopladas de Markov proporciona un descriptor semantico de nivel medio que contiene informacion implicita sobre objetos (sus identidades, tamanos y patrones de movimiento), movimiento de camara, localizacion, tipo de toma, relaciones temporales entre los elementos que componen la escena y actividad global, entendida como la cantidad de accion. Conceptos semanticos mas complejos emergen de la union de estos descriptores de nivel medio, tales como "cabeza parlante", que surge de la combinacion de un primer plano con el color de la piel de la cara. Anadiendo el componente de localizacion en el dominio de Noticiarios, las cabezas parlantes se pueden subclasificar en "presentadores" (localizados en estudio) y "corresponsales" (localizados en exteriores). Estas y otras categorias semanticamente significativas aparecen cuando los shots representados usando el modelo CMC se agrupan de forma no supervisada. Los conceptos mejor definidos se corresponden con grupos compactos, que pueden ser detectados usando una medida de densidad. Conocimiento de alto nivel sobre el dominio se puede definir mediante simples reglas basadas en estos conceptos, que establecen fronteras en la estructura semantica del video. El modelado de contenidos de video por cadenas acopladas de Markov unifica los primeros pasos del proceso de analisis semantico de video y proporciona una representacion de nivel medio semanticamente significativa sin necesidad de detectar previamente las fronteras entre shots.