Imagine un boombox que rastree cada uno de sus movimientos y sugiere que la música coincida con su estilo de baile personal. Esa es la idea detrás de «Be the Beat», uno de varios proyectos del curso del MIT 4.043/4.044 (inteligencia de interacción), impartido por Marcelo Coelho en el Departamento de Arquitectura, que se presentaron en la 38ª Conferencia Anual de Neurips (Sistemas de procesamiento de información neural) conferencia En diciembre de 2024. Con más de 16,000 asistentes que convergen en Vancouver, Neurips es una conferencia competitiva y prestigiosa dedicada a la investigación y la ciencia en el campo de la inteligencia artificial y el aprendizaje automático, y un lugar principal para mostrar desarrollos de vanguardia.
El curso investiga el campo emergente de los objetos de idiomas grandes y cómo la inteligencia artificial puede extenderse al mundo físico. Mientras que «Be The Beat» transforma las posibilidades creativas de la danza, otras presentaciones de los estudiantes abarcan disciplinas como música, narración de cuentos, pensamiento crítico y memoria, creando experiencias generativas y nuevas formas de interacción humana-computadora. Tomados en conjunto, estos proyectos ilustran una visión más amplia para la inteligencia artificial: una que va más allá de la automatización para catalizar la creatividad, la remodelación de la educación y reinventar las interacciones sociales.
Ser el ritmo
«Be the Beat», de Ethan Chang, un estudiante de ingeniería y diseño mecánico del MIT, y Zhixing Chen, un estudiante de ingeniería mecánica y música del MIT, es un boombox impulsado por IA que sugiere música del movimiento de un bailarín. La danza ha sido tradicionalmente guiada por la música a lo largo de la historia y en las culturas, sin embargo, rara vez se explora el concepto de bailar música.
«Be the Beat» crea un espacio para la colaboración de Human-AI en la danza de estilo libre, lo que permite a los bailarines repensar la dinámica tradicional entre la danza y la música. Utiliza Posenet para describir los movimientos para un modelo de lenguaje grande, lo que le permite analizar las API de estilo de baile y consulta para encontrar música con estilo, energía y tempo similares. Los bailarines que interactuaron con el boombox informaron tener más control sobre la expresión artística y describieron el boombox como un enfoque novedoso para descubrir los géneros de baile y la coreografía creativamente.
Un misterio para ti
«A Mystery for You», de Mrinalini Singha SM ’24, un recién graduado en el programa de arte, cultura y tecnología, y Haoheng Tang, un recién graduado de la Escuela de Diseño de Graduados de la Universidad de Harvard, es un juego educativo diseñado para cultivar Pensamiento crítico y habilidades de verificación de hechos en jóvenes estudiantes. El juego aprovecha un modelo de idioma grande (LLM) y una interfaz tangible para crear una experiencia de investigación inmersiva. Los jugadores actúan como verificadores de hechos ciudadanos, respondiendo a «alertas de noticias» generadas por IA impresas por la interfaz del juego. Al insertar combinaciones de cartuchos para impulsar «actualizaciones de noticias» de seguimiento, navegan por escenarios ambiguos, analizan evidencia y pesan información conflictiva para tomar decisiones informadas.
Esta experiencia de interacción humana-computadora desafía nuestros hábitos de consumo de noticias al eliminar las interfaces de pantalla táctil, reemplazando el desplazamiento perpetuo y la lectura descremada con un dispositivo analógico hípticamente rico. Al combinar las posibilidades de los medios lentos con los nuevos medios generativos, el juego promueve interacciones reflexivas y encarnadas mientras equipa a los jugadores para comprender y desafiar mejor el panorama de los medios polarizados de hoy, donde prosperan la información errónea y las narrativas manipuladoras.
Memorscope
«Memorscope», del colaborador de investigación de MIT Media Lab Keunwook Kim, es un dispositivo que crea recuerdos colectivos al fusionar la experiencia profundamente humana de la interacción cara a cara con tecnologías AI avanzadas. Inspirados en cómo usamos microscopios y telescopios para examinar y descubrir detalles ocultos e invisibles, MemorScope permite a dos usuarios «mirar» las caras de los demás, utilizando esta interacción íntima como una puerta de enlace a la creación y exploración de sus memorias compartidas.
El dispositivo aprovecha modelos de IA como OpenAI y MidJourney, introduciendo diferentes interpretaciones estéticas y emocionales, lo que resulta en un espacio de memoria dinámico y colectivo. Este espacio trasciende las limitaciones de los álbumes compartidos tradicionales, que ofrece un entorno fluido e interactivo en el que los recuerdos no son solo instantáneas estáticas, sino que viven, en evolución de las narraciones, moldeadas por la relación continua entre los usuarios.
Narratón
«Narratron», de Harvard Graduate School of Design Students Xiying (ARIA) Bao y Yubo Zhao, es un proyector interactivo que co-crea y co-actúa sobre las historias de los niños a través de títeres de sombras utilizando modelos de idiomas grandes. Los usuarios pueden presionar el obturador para «capturar» a los protagonistas que quieren estar en la historia, y toma sombras de mano (como formas de animales) como entrada para los personajes principales. Luego, el sistema desarrolla la trama de la historia a medida que se introducen nuevos personajes de sombras. La historia aparece a través de un proyector como telón de fondo para los títeres de sombra mientras se narraba a través de un altavoz a medida que los usuarios convierten una manivela para «jugar» en tiempo real. Al combinar interacciones visuales, auditivas y corporales en un solo sistema, el proyecto tiene como objetivo provocar la creatividad en el juego de sombras para la narración de cuentos y permitir la colaboración multimodal humana-AI.
Sintaxis perfecta
«Perfect Syntax», de Karyn Nakamura ’24, es una pieza de videoarte que examina la lógica sintáctica detrás del movimiento y el video. Utilizando AI para manipular fragmentos de video, el proyecto explora cómo la fluidez del movimiento y el tiempo puede ser simulada y reconstruida mediante máquinas. Inspirándose tanto en la investigación filosófica como en la práctica artística, el trabajo de Nakamura interroga la relación entre la percepción, la tecnología y el movimiento que da forma a nuestra experiencia del mundo. Al reinventar el video a través de procesos computacionales, Nakamura investiga las complejidades de cómo las máquinas entienden y representan el paso del tiempo y el movimiento.