¿Cómo sería una mirada detrás de escena a un video generado por un modelo de inteligencia artificial? Puede pensar que el proceso es similar a la animación stop-motion, donde se crean y cosen muchas imágenes, pero ese no es el caso de los «modelos de difusión» como Sora de Openal y VEO 2 de Google.

En lugar de producir un video marco por marco (o «autorregresivo»), estos sistemas procesan toda la secuencia a la vez. El clip resultante a menudo es fotorrealista, pero el proceso es lento y no permite cambios en la marcha.

Acelerando el descubrimiento científico con AI

MIT y Mass General Brigham El lanzamiento del programa de semillas conjuntas para acelerar las innovaciones en salud

Los científicos del Laboratorio de Informática e Inteligencia Artificial del MIT (CSAIL) y Adobe Research han desarrollado un enfoque híbrido, llamado «CausVid», para crear videos en segundos. Al igual que un estudiante de ingenio rápido que aprende de un maestro bien versado, un modelo de difusión de secuencia completa entrena un sistema autorregresivo para predecir rápidamente el siguiente cuadro al tiempo que garantiza una alta calidad y consistencia. El modelo de estudiante de CausVid puede generar clips a partir de un mensaje de texto simple, convirtiendo una foto en una escena móvil, extendiendo un video o alterando sus creaciones con nuevas entradas a mitad de la generación.

Esta herramienta dinámica permite la creación rápida de contenido interactivo, reduciendo un proceso de 50 pasos en solo unas pocas acciones. Puede crear muchas escenas imaginativas y artísticas, como un avión de papel que se transforma en un cisne, mamuts lanudos que se aventuran a través de la nieve o un niño que salta en un charco. Los usuarios también pueden hacer un aviso inicial, como «Generar a un hombre cruzando la calle» y luego hacer entradas de seguimiento para agregar nuevos elementos a la escena, como «escribe en su cuaderno cuando llega a la acera opuesta».

Un video producido por CausVid ilustra su capacidad para crear contenido suave y de alta calidad.

Animación generada por IA cortesía de los investigadores.

Los investigadores de CSAIL dicen que el modelo podría usarse para diferentes tareas de edición de video, como ayudar a los espectadores a comprender una transmisión en vivo en un lenguaje diferente al generar un video que se sincroniza con una traducción de audio. También podría ayudar a representar contenido nuevo en un videojuego o producir rápidamente simulaciones de entrenamiento para enseñar a los robots nuevas tareas.

Tianwei Yin SM ’25, PhD ’25, un estudiante recientemente graduado en ingeniería eléctrica e informática y afiliado de CSAIL, atribuye la fuerza del modelo a su enfoque mixto.

«CausVid combina un modelo basado en difusión previamente capacitado con una arquitectura autorregresiva que se encuentra típicamente en los modelos de generación de texto», dice Yin, co-líder de un nuevo artículo sobre la herramienta. «Este modelo de maestro impulsado por IA puede imaginar pasos futuros para capacitar a un sistema de cuadro por cuadro para evitar cometer errores de renderizado».

El co-líder de Yin, Qiang Zhang, es un científico investigador de XAI y un ex investigador visitante de CSAIL. Trabajaron en el proyecto con los científicos de investigación de Adobe Richard Zhang, Eli Shechtman y Xun Huang, y dos investigadores principales de CSAIL: los profesores del MIT Bill Freeman y Frédo Durand.

Causa (vid) y efecto

Muchos modelos autorregresivos pueden crear un video que inicialmente es suave, pero la calidad tiende a caer más adelante en la secuencia. Un clip de una persona que se ejecuta puede parecer realista al principio, pero sus piernas comienzan a agitarse en direcciones antinaturales, lo que indica inconsistencias de marco a marco (también llamadas «acumulación de errores»).

La generación de videos propensas a errores fue común en los enfoques causales anteriores, que aprendieron a predecir los marcos uno por uno por su cuenta. En su lugar, CausVid utiliza un modelo de difusión de alta potencia para enseñar a un sistema más simple su experiencia en video general, lo que le permite crear imágenes suaves, pero mucho más rápido.

CausVid permite una creación de video rápida e interactiva, cortando un proceso de 50 pasos en solo unas pocas acciones.
Video cortesía de los investigadores.

CausVid mostró su aptitud en video cuando los investigadores probaron su capacidad para hacer videos de alta resolución de 10 segundos de largo. Superó a las líneas de base como «Opensora» y «MovieGen», trabajando hasta 100 veces más rápido que su competencia mientras producía los clips más estables y de alta calidad.

Luego, Yin y sus colegas probaron la capacidad de CausVid para publicar videos estables de 30 segundos, donde también encabezó modelos comparables en calidad y consistencia. Estos resultados indican que CausVid puede eventualmente producir videos estables, horas, o incluso una duración indefinida.

Un estudio posterior reveló que los usuarios prefirieron los videos generados por el modelo de estudiante de CausVid sobre su maestro basado en la difusión.

«La velocidad del modelo autorregresivo realmente marca la diferencia», dice Yin. «Sus videos se ven tan bien como los del maestro, pero con menos tiempo para producir, la compensación es que sus imágenes son menos diversas».

CausVid también se destacó cuando se probó en más de 900 indicaciones utilizando un conjunto de datos de texto a video, recibiendo el puntaje general superior de 84.27. Se jactó de las mejores métricas en categorías como la calidad de las imágenes y las acciones humanas realistas, eclipsando modelos de generación de videos de última generación como «Vchitect» y «Gen-3».

Si bien un paso eficiente en la generación de videos de IA, CausVid pronto puede diseñar imágenes incluso más rápido, tal vez al instante, con una arquitectura causal más pequeña. Yin dice que si el modelo está entrenado en conjuntos de datos específicos de dominio, es probable que cree clips de mayor calidad para robótica y juegos.

Los expertos dicen que este sistema híbrido es una actualización prometedora de los modelos de difusión, que actualmente están empantanados por las velocidades de procesamiento. «[Diffusion models] son mucho más lentos que los LLM [large language models] o modelos de imagen generativos «, dice el profesor asistente de la Universidad Carnegie Mellon, Jun-Yan Zhu, quien no participó en el documento.» Este nuevo trabajo cambia eso, lo que hace que la generación de videos sea mucho más eficiente. Eso significa una mejor velocidad de transmisión, aplicaciones más interactivas y huellas de carbono más bajas «.

El trabajo del equipo fue apoyado, en parte, por el Amazon Science Hub, el Instituto de Ciencia y Tecnología Gwangju, Adobe, Google, el Laboratorio de Investigación de la Fuerza Aérea de EE. UU., Y el Acelerador de Inteligencia Artificial de la Fuerza Aérea de los Estados Unidos. CausVid se presentará en la conferencia sobre visión por computadora y reconocimiento de patrones en junio.

Modelo Hybrid AI Craft Smooth y videos de alta calidad en segundos

Acelerando el descubrimiento científico con AI

MIT y Mass General Brigham El lanzamiento del programa de semillas conjuntas para acelerar las innovaciones en salud

Deja una respuesta Cancelar la respuesta

Noticias recientes

The Guardian View sobre la ola de calor de Europa: los líderes deben recordarle al público por qué importan los objetivos ambiciosos | Editorial

Este año no se celebrará el Festival de la Cueva de Nerja

Tesla comparte una caída después de que Trump dice que Dege debería mirar los subsidios de Elon Musk

Amigos

The Guardian View sobre la ola de calor de Europa: los líderes deben recordarle al público por qué importan los objetivos ambiciosos | Editorial

Este año no se celebrará el Festival de la Cueva de Nerja

Categorías

Welcome Back!

Retrieve your password

Modelo Hybrid AI Craft Smooth y videos de alta calidad en segundos

YOU MAY ALSO LIKE

Acelerando el descubrimiento científico con AI

MIT y Mass General Brigham El lanzamiento del programa de semillas conjuntas para acelerar las innovaciones en salud

Deja una respuesta Cancelar la respuesta

Noticias recientes

The Guardian View sobre la ola de calor de Europa: los líderes deben recordarle al público por qué importan los objetivos ambiciosos | Editorial

Este año no se celebrará el Festival de la Cueva de Nerja

Tesla comparte una caída después de que Trump dice que Dege debería mirar los subsidios de Elon Musk

Amigos

The Guardian View sobre la ola de calor de Europa: los líderes deben recordarle al público por qué importan los objetivos ambiciosos | Editorial

Este año no se celebrará el Festival de la Cueva de Nerja

Categorías

Welcome Back!

Retrieve your password