Los modelos básicos son modelos masivos de aprendizaje profundo que se han entrenado previamente con una enorme cantidad de datos de uso general sin etiquetar. Se pueden aplicar a una variedad de tareas, como generar imágenes o responder preguntas de los clientes.
Pero estos modelos, que sirven como columna vertebral de potentes herramientas de inteligencia artificial como ChatGPT y DALL-E, pueden ofrecer información incorrecta o engañosa. En una situación crítica para la seguridad, como cuando un peatón se acerca a un vehículo autónomo, estos errores podrían tener consecuencias graves.
Para ayudar a prevenir tales errores, investigadores del MIT y del MIT-IBM Watson AI Lab desarrollaron una técnica para estimar la confiabilidad de los modelos base antes de implementarlos en una tarea específica.
Para ello, entrenan un conjunto de modelos básicos que son ligeramente diferentes entre sí. Luego, utilizan su algoritmo para evaluar la coherencia de las representaciones que cada modelo aprende sobre el mismo punto de datos de prueba. Si las representaciones son coherentes, significa que el modelo es fiable.
Cuando compararon su técnica con métodos de referencia de última generación, resultó mejor a la hora de captar la confiabilidad de los modelos fundamentales en una variedad de tareas de clasificación.
Alguien podría usar esta técnica para decidir si un modelo debería aplicarse en un contexto determinado, sin necesidad de probarlo en un conjunto de datos del mundo real. Esto podría ser especialmente útil cuando los conjuntos de datos pueden no ser accesibles debido a preocupaciones de privacidad, como en los entornos de atención médica. Además, la técnica podría usarse para clasificar modelos en función de puntajes de confiabilidad, lo que permite al usuario seleccionar el mejor para su tarea.
“Todos los modelos pueden estar equivocados, pero los modelos que saben cuándo están equivocados son más útiles. El problema de cuantificar la incertidumbre o la fiabilidad se hace más difícil para estos modelos básicos porque sus representaciones abstractas son difíciles de comparar. Nuestro método permite cuantificar la fiabilidad de un modelo de representación para cualquier dato de entrada dado”, afirma el autor principal Navid Azizan, profesor adjunto Esther y Harold E. Edgerton en el Departamento de Ingeniería Mecánica del MIT y el Instituto de Datos, Sistemas y Sociedad (IDSS), y miembro del Laboratorio de Sistemas de Información y Decisión (LIDS).
Junto a él, en un artículo sobre el trabajo, están el autor principal, Young-Jin Park, estudiante de posgrado de LIDS; Hao Wang, científico investigador del Laboratorio de IA Watson del MIT-IBM; y Shervin Ardeshir, científico investigador sénior de Netflix. El artículo se presentará en la Conferencia sobre Incertidumbre en Inteligencia Artificial.
Contando el consenso
Los modelos tradicionales de aprendizaje automático se entrenan para realizar una tarea específica. Estos modelos suelen hacer una predicción concreta en función de una entrada. Por ejemplo, el modelo podría indicar si una determinada imagen contiene un gato o un perro. En este caso, evaluar la fiabilidad podría ser simplemente una cuestión de observar la predicción final para ver si el modelo es correcto.
Pero los modelos básicos son diferentes. El modelo se entrena previamente con datos generales, en un entorno en el que sus creadores no conocen todas las tareas posteriores a las que se aplicará. Los usuarios lo adaptan a sus tareas específicas después de que ya se haya entrenado.
A diferencia de los modelos de aprendizaje automático tradicionales, los modelos básicos no ofrecen resultados concretos como etiquetas de «gato» o «perro», sino que generan una representación abstracta basada en un punto de datos de entrada.
Para evaluar la confiabilidad de un modelo de base, los investigadores utilizaron un enfoque de conjunto entrenando varios modelos que comparten muchas propiedades pero son ligeramente diferentes entre sí.
«Nuestra idea es como contar el consenso. Si todos esos modelos básicos dan representaciones consistentes para cualquier dato en nuestro conjunto de datos, entonces podemos decir que este modelo es confiable», dice Park.
Pero se encontraron con un problema: ¿cómo podían comparar representaciones abstractas?
“Estos modelos sólo generan un vector compuesto por algunos números, por lo que no podemos compararlos fácilmente”, añade.
Resolvieron este problema utilizando una idea llamada consistencia de vecindad.
Para su método, los investigadores preparan un conjunto de puntos de referencia fiables para ponerlos a prueba en el conjunto de modelos. Luego, para cada modelo, investigan los puntos de referencia ubicados cerca de la representación del punto de prueba en ese modelo.
Al observar la consistencia de los puntos vecinos, pueden estimar la confiabilidad de los modelos.
Alineando las representaciones
Los modelos básicos asignan puntos de datos a lo que se conoce como espacio de representación. Una forma de pensar en este espacio es como una esfera. Cada modelo asigna puntos de datos similares a la misma parte de su esfera, por lo que las imágenes de gatos van en un lugar y las imágenes de perros en otro.
Pero cada modelo mapearía a los animales de manera diferente en su propia esfera, de modo que mientras los gatos pueden estar agrupados cerca del Polo Sur de una esfera, otro modelo podría mapear a los gatos en algún lugar del Hemisferio Norte.
Los investigadores utilizan los puntos vecinos como anclas para alinear esas esferas y así poder hacer que las representaciones sean comparables. Si los puntos vecinos de un punto de datos son consistentes en múltiples representaciones, entonces uno debería estar seguro de la confiabilidad del resultado del modelo para ese punto.
Cuando probaron este enfoque en una amplia gama de tareas de clasificación, descubrieron que era mucho más consistente que las líneas de base. Además, no se vio obstaculizado por puntos de prueba desafiantes que hacían que otros métodos fallaran.
Además, su enfoque se puede utilizar para evaluar la confiabilidad de cualquier dato de entrada, de modo que se podría evaluar qué tan bien funciona un modelo para un tipo particular de individuo, como un paciente con ciertas características.
“Incluso si todos los modelos tienen un rendimiento promedio en general, desde un punto de vista individual, preferirías el que funcione mejor para ese individuo”, dice Wang.
Sin embargo, existe una limitación: deben entrenar un conjunto de grandes modelos de base, lo que es computacionalmente costoso. En el futuro, planean encontrar formas más eficientes de construir múltiples modelos, tal vez utilizando pequeñas perturbaciones de un solo modelo.
Este trabajo está financiado, en parte, por el MIT-IBM Watson AI Lab, MathWorks y Amazon.