El ChatGPT de los vídeos: así es la nueva herramienta de IA desarrollada por Google y con la que podrás crear vídeo a partir de texto
VideoPoet permite, entre otras funciones, crear y retocar contenido audiovisual a partir de texto e imágenes fijas con una sofisticada IA desarrollada por Google
Madrid
VideoPoet es una herramienta de Inteligencia Artificial desarrollada por Google que transforma textos e imágenes fijas en vídeo y permite través de IA editar, estilizar y cambiar el formato de los vídeos, entre otras muchas funciones. Esta herramienta, que funciona como una especie de ChatGPT o DALL-E pero con vídeos, todavía no tiene fecha de lanzamiento oficial, pero ya pueden conocerse sus posibles usos y es posible ver los primeros vídeos modificados con la aplicación. Google pretende así competir con la IA líder en este apartado, Sora, desarrollada por OpenAI.
Más información
Para generar grabaciones con VideoPoet el modelo de aprendizaje automático está entrenado para buscar en un conjunto de datos de imágenes y texto. A partir de un texto normal, al mismo modo que el modelo DALL-E, la aplicación genera un vídeo en movimiento relacionado con el escrito. Otra de sus funciones estrella es la capacidad de introducir movimiento en una fotografía fija, pudiendo mover icónicos cuadros como 'La Mona Lisa' o 'El caminante sobre el mar de nubes'.
Otras funciones posibles permiten extender un vídeo real a través de Inteligencia Artificial, o estilizar un vídeo editando los colores, cambiando los estilos o imaginando situaciones surrealistas como dos osos panda jugando a las cartas.
La página web de Google VideoPoet explica todas las funciones posibles del futuro programa con ejemplos visuales de cómo quedan los vídeos en el programa. La página resalta que la aplicación "utiliza modelos generativos para contar historias visuales".
Para mostrar un ejemplo, la compañía ha producido un cortometraje compuesto por muchos clips cortos generados por el modelo. Para el guión, ha pedido a Bard (conocido ahora como Google Gemini) que escribiera una serie de instrucciones para detallar una breve historia sobre un mapache viajero, generando videoclips para cada pregunta y uniéndolos para producir el cortometraje final.
Un modelo de lenguaje autorregresivo aprende a través de las modalidades de vídeo, imagen, audio y texto para predecir auto regresivamente el siguiente token (proceso de sustitución de un elemento de datos) de vídeo o audio de la secuencia. Esta sencilla receta demuestra que los modelos lingüísticos pueden sintetizar y editar vídeos con un alto grado de coherencia temporal. El modelo VideoPoet permite generar vídeos en orientación cuadrada o vertical, así como generar audio a partir de una entrada de vídeo.
La aplicación pretende competir con Sora, el modelo de IA de texto a vídeo y multimodal desarrollado por OpenAI que permite generar vídeos realistas a partir de descripciones textuales.