El lenguaje natural transmite ideas, acciones, información e intenciones a través del contexto y la sintaxis; Además, hay volúmenes contenidos en bases de datos. Esto lo convierte en una excelente fuente de datos para entrenar sistemas de aprendizaje automático. Dos estudiantes de maestría en ingeniería en el Programa de Tesis 6A MEng del MIT, Irene Terpstra ’23 y Rujul Gandhi ’22, están trabajando con mentores en el Laboratorio de IA Watson del MIT-IBM para utilizar este poder del lenguaje natural para construir sistemas de IA.
A medida que la informática se vuelve más avanzada, los investigadores buscan mejorar el hardware en el que se ejecutan; esto significa innovar para crear nuevos chips de computadora. Y, dado que ya existe literatura disponible sobre las modificaciones que se pueden realizar para lograr ciertos parámetros y rendimiento, Terpstra y sus mentores y asesores Anantha Chandrakasan, decana de la Escuela de Ingeniería del MIT y profesora Vannevar Bush de Ingeniería Eléctrica e Informática, e investigadora de IBM Xin Zhang, están desarrollando un algoritmo de inteligencia artificial que ayuda en el diseño de chips.
“Estoy creando un flujo de trabajo para analizar sistemáticamente cómo estos modelos de lenguaje pueden ayudar en el proceso de diseño de circuitos. ¿Qué poderes de razonamiento tienen y cómo se pueden integrar en el proceso de diseño del chip? dice Terpstra. “Y luego, por otro lado, si eso resulta lo suficientemente útil, [we’ll] ver si pueden diseñar automáticamente los chips ellos mismos, adjuntándolos a un algoritmo de aprendizaje por refuerzo”.
Para ello, el equipo de Terpstra está creando un sistema de inteligencia artificial que puede iterar sobre diferentes diseños. Significa experimentar con varios modelos de lenguajes grandes previamente entrenados (como ChatGPT, Llama 2 y Bard), utilizando un lenguaje simulador de circuitos de código abierto llamado NGspice, que tiene los parámetros del chip en forma de código, y un algoritmo de aprendizaje por refuerzo. Con indicaciones de texto, los investigadores podrán consultar cómo se debe modificar el chip físico para lograr un objetivo determinado en el modelo de lenguaje y generar orientación para los ajustes. Luego, esto se transfiere a un algoritmo de aprendizaje por refuerzo que actualiza el diseño del circuito y genera nuevos parámetros físicos del chip.
«El objetivo final sería combinar los poderes de razonamiento y la base de conocimientos integrados en estos grandes modelos de lenguaje y combinarlos con el poder de optimización de los algoritmos de aprendizaje por refuerzo y hacer que estos diseñen el chip en sí», dice Terpstra.
Rujul Gandhi trabaja con el propio lenguaje crudo. Como estudiante en el MIT, Gandhi exploró la lingüística y las ciencias informáticas, y las unió en su trabajo de MEng. «Me ha interesado la comunicación, tanto entre humanos como entre humanos y computadoras», dice Gandhi.
Los robots u otros sistemas interactivos de IA son un área en la que tanto los humanos como las máquinas deben comprender la comunicación. Los investigadores suelen escribir instrucciones para robots utilizando lógica formal. Esto ayuda a garantizar que los comandos se sigan de forma segura y según lo previsto, pero la lógica formal puede resultar difícil de entender para los usuarios, mientras que el lenguaje natural resulta sencillo. Para garantizar esta comunicación fluida, Gandhi y sus asesores Yang Zhang de IBM y el profesor asistente del MIT Chuchu Fan están construyendo un analizador que convierte instrucciones en lenguaje natural en un formato compatible con máquinas. Aprovechando la estructura lingüística codificada por el modelo codificador-decodificador T5 previamente entrenado y un conjunto de datos de comandos básicos en inglés anotados para realizar ciertas tareas, el sistema de Gandhi identifica las unidades lógicas más pequeñas, o proposiciones atómicas, que están presentes en una instrucción determinada.
«Una vez que haya dado sus instrucciones, el modelo identifica todas las subtareas más pequeñas que desea que lleve a cabo», dice Gandhi. “Luego, utilizando un modelo de lenguaje grande, cada subtarea se puede comparar con las acciones y objetos disponibles en el mundo del robot, y si alguna subtarea no se puede llevar a cabo porque no se reconoce un determinado objeto, o una acción «No es posible, el sistema puede detenerse allí mismo para pedir ayuda al usuario».
Este enfoque de dividir las instrucciones en subtareas también permite que su sistema comprenda las dependencias lógicas expresadas en inglés, como «realizar la tarea X hasta que ocurra el evento Y». Gandhi utiliza un conjunto de datos de instrucciones paso a paso en los dominios de tareas de los robots, como la navegación y la manipulación, centrándose en las tareas domésticas. Utilizar datos escritos tal como los humanos hablarían entre sí tiene muchas ventajas, afirma, porque significa que un usuario puede ser más flexible a la hora de expresar sus instrucciones.
Otro de los proyectos de Gandhi consiste en desarrollar modelos de habla. En el contexto del reconocimiento de voz, algunos idiomas se consideran de “bajos recursos”, ya que es posible que no tengan una gran cantidad de voz transcrita disponible o que no tengan ninguna forma escrita. «Una de las razones por las que solicité esta pasantía en el Laboratorio de IA Watson del MIT-IBM fue mi interés en el procesamiento del lenguaje para idiomas de bajos recursos», dice. «Hoy en día, muchos modelos de lenguaje se basan en gran medida en datos, y cuando no es tan fácil adquirir todos esos datos, es cuando es necesario utilizar los datos limitados de manera eficiente».
El habla es solo una corriente de ondas sonoras, pero los humanos que mantienen una conversación pueden descubrir fácilmente dónde comienzan y terminan las palabras y los pensamientos. En el procesamiento del habla, tanto los humanos como los modelos de lenguaje utilizan su vocabulario existente para reconocer los límites de las palabras y comprender el significado. En idiomas de bajos o nulos recursos, es posible que no exista ningún vocabulario escrito, por lo que los investigadores no pueden proporcionar uno al modelo. En cambio, el modelo puede tomar nota de qué secuencias de sonidos ocurren juntas con más frecuencia que otras e inferir que podrían ser palabras o conceptos individuales. En el grupo de investigación de Gandhi, estas palabras inferidas se recopilan luego en un pseudovocabulario que sirve como método de etiquetado para el lenguaje de bajos recursos, creando datos etiquetados para aplicaciones futuras.
Las aplicaciones de la tecnología del lenguaje están “prácticamente en todas partes”, dice Gandhi. “Se podría imaginar que las personas pudieran interactuar con software y dispositivos en su idioma nativo, su dialecto nativo. Podrías imaginarte mejorando todos los asistentes de voz que utilizamos. Se podría imaginar que se utiliza para traducción o interpretación”.