El 21 de diciembre de 2022, justo cuando los viajes en la temporada de vacaciones se estaban poniendo en marcha, Southwest Airlines pasó por una serie de fallas en cascada en su programación, inicialmente provocada por un clima invernal severo en el área de Denver. Pero los problemas se extendieron a través de su red, y en el transcurso de los próximos 10 días, la crisis terminó hilando a más de 2 millones de pasajeros y causando pérdidas de $ 750 millones para la aerolínea.
¿Cómo terminó un sistema meteorológico localizado provocando una falla tan generalizada? Los investigadores del MIT han examinado esta falla ampliamente informada como un ejemplo de casos en los que los sistemas que funcionan sin problemas la mayor parte del tiempo se descomponen repentinamente y causan un efecto dominó de las fallas. Ahora han desarrollado un sistema computacional para usar la combinación de datos dispersos sobre un evento de falla raro, en combinación con datos mucho más extensos sobre operaciones normales, para trabajar hacia atrás e intentar identificar las causas raíz de la falla, y con suerte poder encontrar formas de ajustar los sistemas para prevenir tales fallas en el futuro.
Los hallazgos fueron presentados en la Conferencia Internacional sobre Representaciones de Aprendizaje (ICLR), que fue celebrada en Singapur del 24 al 28 de abril por el estudiante doctoral del MIT Charles Dawson, profesor de fanáticos de la aeronáutica y astronautia Chuchu, y colegas de la Universidad de Harvard y la Universidad de Michigan.
«La motivación detrás de este trabajo es que es realmente frustrante cuando tenemos que interactuar con estos sistemas complicados, donde es realmente difícil entender lo que está sucediendo detrás de escena que está creando estos problemas o fallas que estamos observando», dice Dawson.
El nuevo trabajo se basa en investigaciones anteriores del laboratorio de Fan, donde analizaron problemas que involucran problemas de predicción de fallas hipotéticas, dice, como con grupos de robots que trabajan juntos en una tarea o sistemas complejos como la red eléctrica, que buscan formas de predecir cómo pueden fallar tales sistemas. «El objetivo de este proyecto», dice Fan, «fue realmente convertir eso en una herramienta de diagnóstico que podríamos usar en los sistemas del mundo real».
La idea era proporcionar una forma en que alguien pudiera «darnos datos de una época en que este sistema del mundo real tenía un problema o un fracaso», dice Dawson, «y podemos tratar de diagnosticar las causas raíz y proporcionar un poco de mirada detrás de la cortina ante esta complejidad».
La intención es que los métodos que desarrollaron «para trabajar para una clase bastante general de problemas cibernéticos», dice. Estos son problemas en los que «tienes un componente de toma de decisiones automatizado que interactúa con el desorden del mundo real», explica. Existen herramientas disponibles para probar sistemas de software que operan por su cuenta, pero la complejidad surge cuando ese software tiene que interactuar con las entidades físicas que realizan sus actividades en un entorno físico real, ya sea la programación de aeronaves, los movimientos de los vehículos autónomos, las interacciones de un equipo de robots o el control de las entradas y salidas en una red eléctrica. En tales sistemas, lo que sucede a menudo, dice, es que «el software podría tomar una decisión que se ve bien al principio, pero luego tiene todos estos efectos de dominó, que hacen que las cosas sean más desordenadas y mucho más inciertas».
Sin embargo, una diferencia clave es que en sistemas como equipos de robots, a diferencia de la programación de aviones, «tenemos acceso a un modelo en el mundo de la robótica», dice Fan, quien es un investigador principal en el laboratorio del MIT para los sistemas de información y decisión (LIDS). «Tenemos una buena comprensión de la física detrás de la robótica, y tenemos formas de crear un modelo» que representa sus actividades con una precisión razonable. Pero la programación de las aerolíneas involucra procesos y sistemas que son información comercial propietaria, por lo que los investigadores tuvieron que encontrar formas de inferir lo que estaba detrás de las decisiones, utilizando solo la información relativamente escasa disponible públicamente, que esencialmente consistía en los tiempos de llegada y salida reales de cada avión.
«Hemos tomado todos estos datos de vuelo, pero está todo este sistema del sistema de programación detrás de él, y no sabemos cómo funciona el sistema», dice Fan. Y la cantidad de datos relacionados con la falla real es solo varios días, en comparación con años de datos sobre operaciones de vuelo normales.
El impacto de los eventos meteorológicos en Denver durante la semana de la crisis de programación de Southwest apareció claramente en los datos de vuelo, solo desde los tiempos de respuesta más largos de lo normal entre el aterrizaje y el despegue en el aeropuerto de Denver. Pero la forma en que el impacto en cascada aunque el sistema era menos obvio y requería más análisis. La clave resultó tener que ver con el concepto de aviones de reserva.
Las aerolíneas generalmente mantienen algunos aviones en reserva en varios aeropuertos, de modo que si los problemas se encuentran con un avión que está programado para un vuelo, otro avión puede ser sustituido rápidamente. Southwest usa solo un tipo de avión, por lo que todos son intercambiables, lo que facilita las sustituciones. Pero la mayoría de las aerolíneas operan en un sistema de centros y radios, con algunos aeropuertos de centros designados donde se puede mantener la mayoría de esos aviones de reserva, mientras que Southwest no usa centros, por lo que sus aviones de reserva están más dispersos en toda su red. Y la forma en que se desplegaron esos aviones resultó jugar un papel importante en la crisis de desarrollo.
«El desafío es que no hay datos públicos disponibles en términos de dónde se estacionan los aviones en toda la red del suroeste», dice Dawson. «Lo que podemos encontrar usando nuestro método es, al observar los datos públicos sobre las llegadas, las salidas y los retrasos, podemos usar nuestro método para respaldar cuáles podrían haber sido los parámetros ocultos de esas reservas de aeronaves, para explicar las observaciones que estábamos viendo».
Lo que encontraron fue que la forma en que se desplegaron las reservas fue un «indicador principal» de los problemas que en casco en una crisis nacional. Algunas partes de la red que fueron afectadas directamente por el clima pudieron recuperarse rápidamente y volver a programar. «Pero cuando miramos otras áreas en la red, vimos que estas reservas simplemente no estaban disponibles, y las cosas seguían empeorando».
Por ejemplo, los datos mostraron que las reservas de Denver disminuían rápidamente debido a los retrasos del clima, pero luego «también nos permitió rastrear esta falla de Denver a Las Vegas», dice. Si bien no había un clima severo allí, «nuestro método aún nos mostraba una disminución constante en la cantidad de aviones que pudieron servir vuelos de Las Vegas».
Él dice que «lo que encontramos fue que había estas circulaciones de aviones dentro de la red del suroeste, donde un avión podría comenzar el día en California y luego volar a Denver, y luego terminar el día en Las Vegas». Lo que sucedió en el caso de esta tormenta fue que el ciclo se interrumpió. Como resultado, «esta tormenta en Denver rompe el ciclo, y de repente las reservas en Las Vegas, que no se ven afectadas por el clima, comienzan a deteriorarse».
Al final, Southwest se vio obligado a tomar una medida drástica para resolver el problema: tenían que hacer un «reinicio duro» de todo su sistema, cancelar todos los vuelos y volar aviones vacíos por todo el país para reequilibrar sus reservas.
Trabajando con expertos en sistemas de transporte aéreo, los investigadores desarrollaron un modelo de cómo se supone que funciona el sistema de programación. Luego, «lo que hace nuestro método es esencialmente estamos tratando de ejecutar el modelo al revés». Al observar los resultados observados, el modelo les permite trabajar para ver qué tipos de condiciones iniciales podrían haber producido esos resultados.
Si bien los datos sobre las fallas reales fueron escasos, los datos extensos sobre las operaciones típicas ayudaron a enseñar el modelo computacional «lo que es factible, qué es posible, cuál es el ámbito de la posibilidad física aquí», dice Dawson. «Eso nos da el conocimiento del dominio para decir, en este evento extremo, dado el espacio de lo que es posible, lo que es la explicación más probable» para el fracaso.
Esto podría conducir a un sistema de monitoreo en tiempo real, dice, donde los datos sobre las operaciones normales se comparan constantemente con los datos actuales y determinan cómo se ve la tendencia. «¿Estamos en tendencia hacia la normalidad o estamos en tendencia hacia eventos extremos?» Ver signos de problemas inminentes podría permitir medidas preventivas, como la redistribución de aviones de reserva de antemano a áreas de problemas anticipados.
El trabajo en el desarrollo de tales sistemas está en curso en su laboratorio, dice Fan. Mientras tanto, han producido una herramienta de código abierto para analizar los sistemas de fallas, llamada Calnf, que está disponible para que cualquiera lo use. Mientras tanto, Dawson, quien obtuvo su doctorado el año pasado, está trabajando como postdoc para aplicar los métodos desarrollados en este trabajo para comprender las fallas en las redes de energía.
El equipo de investigación también incluyó a Max Li de la Universidad de Michigan y Van Tran de la Universidad de Harvard. El trabajo fue apoyado por la NASA, la Oficina de Investigación Científica de la Fuerza Aérea y el Programa MIT-DSTA.