Discusión sobre el artículo "Redes neuronales: así de sencillo (Parte 81): Razonamiento de movimiento guiado por el contexto de grueso a fino (CCMR, Coarse-to-Fine Context-Guided Motion Reasoning)"

 

Artículo publicado Redes neuronales: así de sencillo (Parte 81): Razonamiento de movimiento guiado por el contexto de grueso a fino (CCMR, Coarse-to-Fine Context-Guided Motion Reasoning):

En trabajos anteriores, siempre evaluábamos el estado actual del entorno. Al mismo tiempo, la dinámica de los cambios en los indicadores siempre permaneció «entre bastidores». En este artículo quiero presentarle un algoritmo que permite evaluar el cambio directo de los datos entre 2 estados ambientales sucesivos.

Como parte de esta serie, nos familiarizamos con diversos métodos para analizar el estado del medio ambiente y algoritmos para utilizar los datos obtenidos. Utilizamos modelos convolucionales para encontrar patrones estables en datos históricos de movimientos de precios. También utilizamos modelos de atención para encontrar dependencias entre distintos estados ambientales locales. Siempre evaluamos el estado del medio ambiente como una determinada sección transversal en un momento dado. Sin embargo, nunca hemos evaluado la dinámica de los indicadores medioambientales. Supusimos que el modelo, en el proceso de análisis y comparación de las condiciones ambientales, prestaría atención de algún modo a los cambios clave. Pero no utilizamos una representación cuantitativa explícita de dicha dinámica.

Sin embargo, en el campo de la visión por ordenador, existe un problema fundamental de estimación del flujo óptico. La solución a este problema proporciona información sobre el movimiento de los objetos en la escena. Para resolver este problema, se han propuesto una serie de algoritmos interesantes que ahora se utilizan ampliamente. Los resultados de la estimación del flujo óptico se utilizan en diversos campos, desde la conducción autónoma hasta el seguimiento y la vigilancia de objetos.

La mayoría de los enfoques actuales utilizan redes neuronales convolucionales, pero carecen de contexto global. Esto dificulta el razonamiento sobre oclusiones de objetos o grandes desplazamientos. Un enfoque alternativo es utilizar transformadores y otras técnicas de atención. Permiten ir mucho más allá del campo receptivo fijo de las CNN clásicas.

Un método especialmente interesante, denominado CCMR, se presentó en el artículo «CCMR: High Resolution Optical Flow Estimation via Coarse-to-Fine Context-Guided Motion Reasoning». Se trata de un enfoque para la estimación del flujo óptico que combina las ventajas de los métodos orientados a la atención de los conceptos de agregación de movimiento y los enfoques multiescala de alta resolución. El método CCMR integra de forma coherente conceptos de agrupación de movimientos basados en el contexto en un marco de estimación de grano grueso de alta resolución. Esto permite obtener campos de flujo detallados que también proporcionan una gran precisión en las zonas ocluidas. En este contexto, los autores del método proponen una estrategia de agrupación del movimiento en dos etapas, en la que primero se calculan las características contextuales globales de autoatención y luego se utilizan para guiar las características de movimiento de forma iterativa en todas las escalas. Así, el razonamiento dirigido al contexto sobre el movimiento basado enXCiTproporciona procesamiento en todas las escalas de grano grueso. Los experimentos realizados por los autores del método demuestran el buen rendimiento del enfoque propuesto y las ventajas de sus conceptos básicos.

Autor: Dmitriy Gizlyk