• Sobre nosotros
  • Política de privacidad
  • Anunciar
  • Contactos
viernes, mayo 9, 2025
Retail
No Result
View All Result
Anunciar
Contactos
  • Nacional
  • International
  • Política
  • Economía
  • Ciencia y Tecnología
    • SpaceX
    • Inteligencia Artificial
    • Metaverse
  • Deportes
  • Sociedad
    • Cultura
    • Mascotas
    • Construcción y Vivienda
    • Turismo y Viajes
    • Música y películas
    • Psicología
    • Horóscopos
    • Moda y Estilo
    • Familia
    • Belleza
  • Salud
  • Turismo y Viajes
  • Gastronomía
EntreNosotros | Portal de noticias
No Result
View All Result

Modelo Hybrid AI Craft Smooth y videos de alta calidad en segundos

Escrito por Entrenosotros
06/05/2025
in Inteligencia Artificial
52 2
0
Modelo Hybrid AI Craft Smooth y videos de alta calidad en segundos

¿Cómo sería una mirada detrás de escena a un video generado por un modelo de inteligencia artificial? Puede pensar que el proceso es similar a la animación stop-motion, donde se crean y cosen muchas imágenes, pero ese no es el caso de los «modelos de difusión» como Sora de Openal y VEO 2 de Google.

En lugar de producir un video marco por marco (o «autorregresivo»), estos sistemas procesan toda la secuencia a la vez. El clip resultante a menudo es fotorrealista, pero el proceso es lento y no permite cambios en la marcha.

YOU MAY ALSO LIKE

La nueva herramienta evalúa el progreso en el aprendizaje de refuerzo

Preguntas y respuestas: una hoja de ruta para revolucionar la atención médica a través de la innovación basada en datos

Los científicos del Laboratorio de Informática e Inteligencia Artificial del MIT (CSAIL) y Adobe Research han desarrollado un enfoque híbrido, llamado «CausVid», para crear videos en segundos. Al igual que un estudiante de ingenio rápido que aprende de un maestro bien versado, un modelo de difusión de secuencia completa entrena un sistema autorregresivo para predecir rápidamente el siguiente cuadro al tiempo que garantiza una alta calidad y consistencia. El modelo de estudiante de CausVid puede generar clips a partir de un mensaje de texto simple, convirtiendo una foto en una escena móvil, extendiendo un video o alterando sus creaciones con nuevas entradas a mitad de la generación.

Esta herramienta dinámica permite la creación rápida de contenido interactivo, reduciendo un proceso de 50 pasos en solo unas pocas acciones. Puede crear muchas escenas imaginativas y artísticas, como un avión de papel que se transforma en un cisne, mamuts lanudos que se aventuran a través de la nieve o un niño que salta en un charco. Los usuarios también pueden hacer un aviso inicial, como «Generar a un hombre cruzando la calle» y luego hacer entradas de seguimiento para agregar nuevos elementos a la escena, como «escribe en su cuaderno cuando llega a la acera opuesta».

Un video producido por CausVid ilustra su capacidad para crear contenido suave y de alta calidad.

Animación generada por IA cortesía de los investigadores.

Los investigadores de CSAIL dicen que el modelo podría usarse para diferentes tareas de edición de video, como ayudar a los espectadores a comprender una transmisión en vivo en un lenguaje diferente al generar un video que se sincroniza con una traducción de audio. También podría ayudar a representar contenido nuevo en un videojuego o producir rápidamente simulaciones de entrenamiento para enseñar a los robots nuevas tareas.

Tianwei Yin SM ’25, PhD ’25, un estudiante recientemente graduado en ingeniería eléctrica e informática y afiliado de CSAIL, atribuye la fuerza del modelo a su enfoque mixto.

«CausVid combina un modelo basado en difusión previamente capacitado con una arquitectura autorregresiva que se encuentra típicamente en los modelos de generación de texto», dice Yin, co-líder de un nuevo artículo sobre la herramienta. «Este modelo de maestro impulsado por IA puede imaginar pasos futuros para capacitar a un sistema de cuadro por cuadro para evitar cometer errores de renderizado».

El co-líder de Yin, Qiang Zhang, es un científico investigador de XAI y un ex investigador visitante de CSAIL. Trabajaron en el proyecto con los científicos de investigación de Adobe Richard Zhang, Eli Shechtman y Xun Huang, y dos investigadores principales de CSAIL: los profesores del MIT Bill Freeman y Frédo Durand.

Causa (vid) y efecto

Muchos modelos autorregresivos pueden crear un video que inicialmente es suave, pero la calidad tiende a caer más adelante en la secuencia. Un clip de una persona que se ejecuta puede parecer realista al principio, pero sus piernas comienzan a agitarse en direcciones antinaturales, lo que indica inconsistencias de marco a marco (también llamadas «acumulación de errores»).

La generación de videos propensas a errores fue común en los enfoques causales anteriores, que aprendieron a predecir los marcos uno por uno por su cuenta. En su lugar, CausVid utiliza un modelo de difusión de alta potencia para enseñar a un sistema más simple su experiencia en video general, lo que le permite crear imágenes suaves, pero mucho más rápido.

CausVid permite una creación de video rápida e interactiva, cortando un proceso de 50 pasos en solo unas pocas acciones.
Video cortesía de los investigadores.

CausVid mostró su aptitud en video cuando los investigadores probaron su capacidad para hacer videos de alta resolución de 10 segundos de largo. Superó a las líneas de base como «Opensora» y «MovieGen», trabajando hasta 100 veces más rápido que su competencia mientras producía los clips más estables y de alta calidad.

Luego, Yin y sus colegas probaron la capacidad de CausVid para publicar videos estables de 30 segundos, donde también encabezó modelos comparables en calidad y consistencia. Estos resultados indican que CausVid puede eventualmente producir videos estables, horas, o incluso una duración indefinida.

Un estudio posterior reveló que los usuarios prefirieron los videos generados por el modelo de estudiante de CausVid sobre su maestro basado en la difusión.

«La velocidad del modelo autorregresivo realmente marca la diferencia», dice Yin. «Sus videos se ven tan bien como los del maestro, pero con menos tiempo para producir, la compensación es que sus imágenes son menos diversas».

CausVid también se destacó cuando se probó en más de 900 indicaciones utilizando un conjunto de datos de texto a video, recibiendo el puntaje general superior de 84.27. Se jactó de las mejores métricas en categorías como la calidad de las imágenes y las acciones humanas realistas, eclipsando modelos de generación de videos de última generación como «Vchitect» y «Gen-3».

Si bien un paso eficiente en la generación de videos de IA, CausVid pronto puede diseñar imágenes incluso más rápido, tal vez al instante, con una arquitectura causal más pequeña. Yin dice que si el modelo está entrenado en conjuntos de datos específicos de dominio, es probable que cree clips de mayor calidad para robótica y juegos.

Los expertos dicen que este sistema híbrido es una actualización prometedora de los modelos de difusión, que actualmente están empantanados por las velocidades de procesamiento. «[Diffusion models] son mucho más lentos que los LLM [large language models] o modelos de imagen generativos «, dice el profesor asistente de la Universidad Carnegie Mellon, Jun-Yan Zhu, quien no participó en el documento.» Este nuevo trabajo cambia eso, lo que hace que la generación de videos sea mucho más eficiente. Eso significa una mejor velocidad de transmisión, aplicaciones más interactivas y huellas de carbono más bajas «.

El trabajo del equipo fue apoyado, en parte, por el Amazon Science Hub, el Instituto de Ciencia y Tecnología Gwangju, Adobe, Google, el Laboratorio de Investigación de la Fuerza Aérea de EE. UU., Y el Acelerador de Inteligencia Artificial de la Fuerza Aérea de los Estados Unidos. CausVid se presentará en la conferencia sobre visión por computadora y reconocimiento de patrones en junio.

Compartir7Tweet4Compartir1CompartirCompartir

Deja una respuesta Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias recientes

El misterio de la niña sin nombre encontrada muerta en una ciudad fronteriza española – podcast

El misterio de la niña sin nombre encontrada muerta en una ciudad fronteriza española – podcast

09/05/2025
Las acciones de Asia-Pacífico mezcladas a medida que los inversores analizan los datos de China, esperan las conversaciones comerciales de Washington-Beijing

Las acciones de Asia-Pacífico mezcladas a medida que los inversores analizan los datos de China, esperan las conversaciones comerciales de Washington-Beijing

09/05/2025
Por qué el gobernador del Banco de Inglaterra cree que la incertidumbre está aquí para quedarse a pesar de un acuerdo comercial

Por qué el gobernador del Banco de Inglaterra cree que la incertidumbre está aquí para quedarse a pesar de un acuerdo comercial

09/05/2025

Amigos

Sharklinker, Mobellex.fr, Tiksaviems.lt, 365nachrichten, OnePlaceTwoStories, Mobellex.ch, REXFEL, CBDNutzen, Mobellex.de, CBDTropf

EntreNosotros Logo T

Entrenosotros es un portal de noticias que pretende ofrecer a sus lectores noticias de todo el mundo. Cubrimos desde noticias políticas hasta contenidos sobre estilo de vida.

El misterio de la niña sin nombre encontrada muerta en una ciudad fronteriza española – podcast

El misterio de la niña sin nombre encontrada muerta en una ciudad fronteriza española – podcast

09/05/2025
Las acciones de Asia-Pacífico mezcladas a medida que los inversores analizan los datos de China, esperan las conversaciones comerciales de Washington-Beijing

Las acciones de Asia-Pacífico mezcladas a medida que los inversores analizan los datos de China, esperan las conversaciones comerciales de Washington-Beijing

09/05/2025

Categorías

  • Belleza
  • Ciencia y Tecnología
  • Construcción y Vivienda
  • Cultura
  • Deportes
  • Economía
  • Familia
  • Gastronomía
  • Inteligencia Artificial
  • International
  • Málaga
  • Mascotas
  • Música y películas
  • Nacional
  • Otros
  • Política
  • Salud
  • Sociedad
  • Turismo y Viajes
  • Sobre nosotros
  • Política de privacidad
  • Anunciar
  • Contactos

© 2023 EntreNosotros. Reservados todos los derechos. CBDnutzen.DE - Muebles para el hogar - Noticias Alemanas - CBDtropf.DE - Noticias de Lituania - Rexfel.COM

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Nacional
  • International
  • Política
  • Economía
  • Ciencia y Tecnología
    • SpaceX
    • Inteligencia Artificial
    • Metaverse
  • Deportes
  • Sociedad
    • Cultura
    • Mascotas
    • Construcción y Vivienda
    • Turismo y Viajes
    • Música y películas
    • Psicología
    • Horóscopos
    • Moda y Estilo
    • Familia
    • Belleza
  • Salud
  • Turismo y Viajes
  • Gastronomía

© 2023 EntreNosotros. Reservados todos los derechos. CBDnutzen.DE - Muebles para el hogar - Noticias Alemanas - CBDtropf.DE - Noticias de Lituania - Rexfel.COM