Google presento Lumiere, un modelo de difusión de texto a video diseñado para sintetizar videos que retratan movimientos realistas, diversos y coherentes, un desafío fundamental en la síntesis de videos. Para este fin, se introdujo una arquitectura Espacio-Tiempo U-Net que genera la duración temporal completa del video de una sola vez, a través de un solo paso en el modelo.
Esto contrasta con los modelos de vídeo existentes que sintetizan fotogramas clave distantes seguidos de superresolución temporal, un enfoque que inherentemente hace que sea difícil lograr una coherencia temporal global. Al implementar un muestreo descendente y ascendente tanto espacial como (lo más importante) temporal y aprovechar un modelo de difusión de texto a imagen previamente entrenado, el modelo aprende a generar directamente un video de baja resolución y velocidad de cuadro completo procesándolo en múltiples escalas espacio-temporales.
Para ello, Google ha entrenado este modelo usando una base de datos de 30 millones de vídeos. Resumamos rápidamente todo que puede hacer:
Texto a vídeo: La base para cada modelo de vídeo, este es sin duda lo que seria el punto fuerte.
Imagen a vídeo: convierte imágenes fijas en vídeos.
Generación estilizada: Utilizando una imagen de referencia, se puede generar vídeos basados en el estilo de una imagen.
Cinemagraphs: Lumiere puede animar únicamente partes específicas de imágenes estáticas.
Edición de vídeo: Equivalente al ‘inpainting’ de la generación de imágenes, Lumiere puede editar cualquier parte específica de un vídeo aplicando un prompt, aunque solo a un área especifica.
Obviamente como habrán visto, no esta pensado para animar o editar gran volumen de video, sino para poder trabajar con fragmentos cortos.
Un punto importante a destacar es la forma que facilita el proceso de edición de vídeo a los usuarios con pocos conocimientos.
La mala noticia, es que si bien se ha presentado, estamos esperando que Google lo brinde para el acceso al publico en general. Les compartimos el acceso web a el proyecto, ya que lo podemos llamar de esa manera porque no es posible probarlo, y tan solo se pueden ver sus creaciones publicadas por la misma empresa en la web.

