Identificar una turbina defectuosa en un parque eólico, lo que puede implicar examinar cientos de señales y millones de puntos de datos, es como encontrar una aguja en un pajar.
Los ingenieros a menudo simplifican este complejo problema utilizando modelos de aprendizaje profundo que pueden detectar anomalías en las mediciones tomadas repetidamente a lo largo del tiempo por cada turbina, conocidas como datos de series temporales.
Pero, dado que cientos de turbinas eólicas registran docenas de señales cada hora, entrenar un modelo de aprendizaje profundo para analizar datos de series temporales es costoso y complicado. A esto se suma el hecho de que puede ser necesario volver a entrenar el modelo después de su implementación y los operadores de parques eólicos pueden carecer de la experiencia necesaria en aprendizaje automático.
En un nuevo estudio, investigadores del MIT descubrieron que los modelos de lenguaje de gran tamaño (LLM) tienen el potencial de ser detectores de anomalías más eficientes para datos de series temporales. Es importante destacar que estos modelos preentrenados se pueden implementar de inmediato.
Los investigadores desarrollaron un marco, llamado SigLLM, que incluye un componente que convierte datos de series temporales en entradas basadas en texto que un LLM puede procesar. Un usuario puede introducir estos datos preparados en el modelo y pedirle que comience a identificar anomalías. El LLM también se puede utilizar para pronosticar puntos de datos de series temporales futuras como parte de un proceso de detección de anomalías.
Si bien los LLM no pudieron superar a los modelos de aprendizaje profundo de última generación en la detección de anomalías, sí tuvieron un desempeño tan bueno como otros enfoques de IA. Si los investigadores pueden mejorar el desempeño de los LLM, este marco podría ayudar a los técnicos a detectar posibles problemas en equipos como maquinaria pesada o satélites antes de que ocurran, sin la necesidad de entrenar un costoso modelo de aprendizaje profundo.
«Dado que esta es solo la primera iteración, no esperábamos llegar allí desde el primer intento, pero estos resultados muestran que existe una oportunidad aquí para aprovechar los LLM para tareas complejas de detección de anomalías», dice Sarah Alnegheimish, estudiante de posgrado en ingeniería eléctrica y ciencias de la computación (EECS) y autora principal de un artículo sobre SigLLM.
Entre sus coautores se encuentran Linh Nguyen, estudiante de posgrado de la Escuela de Ingeniería Eléctrica y Computación (EECS); Laure Berti-Equille, directora de investigación del Instituto Nacional de Investigación para el Desarrollo Sostenible de Francia; y el autor principal Kalyan Veeramachaneni, científico investigador principal del Laboratorio de Sistemas de Información y Decisiones. La investigación se presentará en la Conferencia IEEE sobre Ciencia de Datos y Analítica Avanzada.
Una solución lista para usar
Los modelos de lenguaje de gran tamaño son autorregresivos, lo que significa que pueden comprender que los valores más recientes en datos secuenciales dependen de valores anteriores. Por ejemplo, modelos como GPT-4 pueden predecir la siguiente palabra en una oración usando las palabras que la preceden.
Dado que los datos de series temporales son secuenciales, los investigadores pensaron que la naturaleza autorregresiva de los LLM podría hacerlos adecuados para detectar anomalías en este tipo de datos.
Sin embargo, querían desarrollar una técnica que evite el ajuste fino, un proceso en el que los ingenieros vuelven a entrenar un LLM de propósito general con una pequeña cantidad de datos específicos de una tarea para convertirlo en experto en una tarea. En lugar de eso, los investigadores implementan un LLM listo para usar, sin pasos de entrenamiento adicionales.
Pero antes de poder implementarlo, tuvieron que convertir datos de series de tiempo en entradas basadas en texto que el modelo de lenguaje pudiera manejar.
Lo lograron mediante una secuencia de transformaciones que capturan las partes más importantes de la serie temporal y al mismo tiempo representan los datos con la menor cantidad de tokens. Los tokens son los datos básicos de entrada para un LLM y cuantos más tokens, más cálculos se necesitan.
«Si no realiza estos pasos con mucho cuidado, podría terminar eliminando alguna parte de sus datos que sí importa y perdiendo esa información», dice Alnegheimish.
Una vez que descubrieron cómo transformar datos de series temporales, los investigadores desarrollaron dos enfoques de detección de anomalías.
Enfoques para la detección de anomalías
Para el primero, al que llaman Prompter, introducen los datos preparados en el modelo y le piden que localice valores anómalos.
“Tuvimos que repetir el proceso varias veces para encontrar los indicadores correctos para una serie temporal específica. No es fácil entender cómo estos LLM procesan los datos”, añade Alnegheimish.
En el segundo método, denominado Detector, utilizan el LLM como pronosticador para predecir el siguiente valor de una serie temporal. Los investigadores comparan el valor predicho con el valor real. Una gran discrepancia sugiere que es probable que el valor real sea una anomalía.
Con Detector, el LLM formaría parte de un proceso de detección de anomalías, mientras que Prompter completaría la tarea por sí solo. En la práctica, Detector funcionó mejor que Prompter, que generó muchos falsos positivos.
“Creo que, con el método Prompter, le estábamos pidiendo al LLM que pasara por demasiados obstáculos. Le estábamos dando un problema más difícil de resolver”, dice Veeramachaneni.
Cuando compararon ambos enfoques con las técnicas actuales, Detector superó a los modelos de IA basados en transformadores en siete de los 11 conjuntos de datos que evaluaron, aunque el LLM no requirió entrenamiento ni ajustes.
En el futuro, un LLM también podrá proporcionar explicaciones en lenguaje sencillo con sus predicciones, de modo que un operador pueda comprender mejor por qué un LLM identificó un determinado punto de datos como anómalo.
Sin embargo, los modelos de aprendizaje profundo de última generación superaron a los LLM por un amplio margen, lo que demuestra que aún queda trabajo por hacer antes de que un LLM pueda usarse para la detección de anomalías.
“¿Qué hace falta para llegar al punto en que funcione tan bien como estos modelos de última generación? Esa es la pregunta del millón que tenemos ante nosotros en este momento. Un detector de anomalías basado en LLM debe ser un elemento innovador para que podamos justificar este tipo de esfuerzo”, afirma Veeramachaneni.
En el futuro, los investigadores quieren ver si el ajuste fino puede mejorar el rendimiento, aunque eso requeriría tiempo, costos y experiencia adicionales para la capacitación.
Sus métodos LLM también tardan entre 30 minutos y dos horas en producir resultados, por lo que aumentar la velocidad es un área clave de trabajo futuro. Los investigadores también quieren investigar los LLM para comprender cómo realizan la detección de anomalías, con la esperanza de encontrar una forma de mejorar su rendimiento.
“Cuando se trata de tareas complejas como la detección de anomalías en series temporales, los LLM son realmente un candidato ideal. ¿Quizás también se puedan abordar otras tareas complejas con LLM?”, afirma Alnegheimish.
Esta investigación fue apoyada por SES SA, Iberdrola y ScottishPower Renewables y Hyundai Motor Company.