OpenAI, el fabricante de ChatGPT y Dall-E, ha presentado Sora, su modelo de conversión de texto a vídeo. Según OpenAI, el nuevo modelo puede generar vídeos de hasta un minuto de duración desde cero, «manteniendo la calidad visual y el cumplimiento de las indicaciones del usuario». Los ejemplos hiperrealistas que se muestran en la página de OpenAI muestran indicaciones como «Un avance de película que presenta las aventuras del hombre espacial de 30 años que lleva un casco de motocicleta tejido de lana roja, cielo azul, desierto salado, estilo cinematográfico, filmado en película de 35 mm, colores vivos».
Funciona mediante el uso de una arquitectura transformadora similar a ChatGPT, donde los videos y las imágenes se presentan como unidades de datos más pequeñas llamadas parches. Los videos generados por Sora comienzan como ruido estático y el modelo elimina gradualmente el ruido para formar el producto final.
A todo esto OpenAI también llevará a cabo conversaciones con responsables políticos, artistas y educadores para ver posibles preocupaciones y casos de uso de Sora.
También vale la pena señalar que antes de que la herramienta esté disponible para los usuarios a través de sus productos, OpenAI está trabajando con los equipos rojos (expertos que intentan encontrar e informar vulnerabilidades y posibles abusos) para poner a prueba el modelo. Además, también está trabajando en herramientas para detectar si Sora generó un vídeo o no. Actualmente no está claro cuándo Sora podría estar disponible para los usuarios de OpenAI.

