El gigante tecnológico Google ha presentado VideoPoet, un innovador modelo de lenguaje grande (LLM) que es capaz de generar videos procesando entradas de texto, imágenes, video y audio. A diferencia de los modelos de vídeo anteriores, VideoPoet integra varias capacidades de generación de vídeo en un único LLM, lo que lo distingue en el campo. El modelo, que emplea una ‘arquitectura sólo decodificadora’, pretende sobresalir en tareas como texto a video, imagen a video, pintura de video y pintura exterior, estilización de video y generación de video a audio.
Según los científicos de Google, la formación de VideoPoet implica un entrenamiento previo y una adaptación a tareas específicas, lo que le permite manejar diversas tareas de generación de vídeos. El modelo, un modelo autorregresivo, crea resultados basándose en lo que generó antes, lo que demuestra un potencial prometedor en la generación de videos dentro del dominio de la IA.
En particular, VideoPoet también puede compilar cortometrajes combinando varios videoclips. Si bien actualmente tiene limitaciones para producir videos más largos, Google sugiere superar esto condicionando el último segundo de los videos para predecir el siguiente. Además, VideoPoet puede modificar el movimiento de los objetos en vídeos existentes, ofreciendo posibilidades creativas como representar a la Mona Lisa bostezando. Los investigadores creen que el marco de VideoPoet admite un futuro formato “cualquiera a cualquiera”, mostrando las capacidades en evolución de los grandes modelos de lenguaje en la generación de videos.
Fuente: Google