Intente tomar una fotografía de cada una de las aproximadamente 11.000 especies de árboles de América del Norte y obtendrá una mera fracción de los millones de fotografías contenidas en conjuntos de datos de imágenes de la naturaleza. Estas enormes colecciones de instantáneas, que van desde mariposas hasta ballenas jorobadas, son una gran herramienta de investigación para los ecólogos porque proporcionan evidencia de comportamientos únicos de los organismos, condiciones raras, patrones de migración y respuestas a la contaminación y otras formas de cambio climático.
Si bien son completos, los conjuntos de datos de imágenes de la naturaleza aún no son tan útiles como podrían ser. Lleva mucho tiempo buscar en estas bases de datos y recuperar las imágenes más relevantes para su hipótesis. Estaría mejor con un asistente de investigación automatizado, o quizás con sistemas de inteligencia artificial llamados modelos de lenguaje de visión multimodal (VLM). Están entrenados tanto en texto como en imágenes, lo que les facilita identificar detalles más finos, como los árboles específicos en el fondo de una foto.
Pero, ¿qué tan bien pueden los VLM ayudar a los investigadores de la naturaleza en la recuperación de imágenes? Un equipo del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT, el University College London, iNaturalist y otros lugares diseñó una prueba de rendimiento para averiguarlo. La tarea de cada VLM: localizar y reorganizar los resultados más relevantes dentro del conjunto de datos “INQUIRE” del equipo, compuesto por 5 millones de imágenes de vida silvestre y 250 indicaciones de búsqueda de ecólogos y otros expertos en biodiversidad.
Buscando esa rana especial
En estas evaluaciones, los investigadores descubrieron que los VLM más grandes y avanzados, que están entrenados con muchos más datos, a veces pueden brindar a los investigadores los resultados que desean ver. Los modelos funcionaron razonablemente bien en consultas sencillas sobre contenido visual, como identificar escombros en un arrecife, pero tuvieron dificultades significativas con consultas que requerían conocimiento experto, como identificar condiciones o comportamientos biológicos específicos. Por ejemplo, los VLM descubrieron con cierta facilidad ejemplos de medusas en la playa, pero tuvieron dificultades con indicaciones más técnicas como «axantismo en una rana verde», una condición que limita su capacidad de hacer que su piel se vuelva amarilla.
Sus hallazgos indican que los modelos necesitan muchos más datos de entrenamiento específicos de dominio para procesar consultas difíciles. El estudiante de doctorado del MIT Edward Vendrow, afiliado de CSAIL que codirigió el trabajo sobre el conjunto de datos en un nuevo artículo, cree que al familiarizarse con datos más informativos, los VLM algún día podrían ser excelentes asistentes de investigación. «Queremos construir sistemas de recuperación que encuentren los resultados exactos que buscan los científicos cuando monitorean la biodiversidad y analizan el cambio climático», dice Vendrow. «Los modelos multimodales aún no comprenden un lenguaje científico más complejo, pero creemos que INQUIRE será un punto de referencia importante para rastrear cómo mejoran en la comprensión de la terminología científica y, en última instancia, ayudar a los investigadores a encontrar automáticamente las imágenes exactas que necesitan».
Los experimentos del equipo ilustraron que los modelos más grandes tendían a ser más efectivos para búsquedas tanto más simples como más complejas debido a sus amplios datos de entrenamiento. Primero utilizaron el conjunto de datos INQUIRE para probar si los VLM podían reducir un grupo de 5 millones de imágenes a los 100 resultados más relevantes (también conocido como «clasificación»). Para consultas de búsqueda sencillas como «un arrecife con estructuras y escombros artificiales», modelos relativamente grandes como «SigLIP» encontraron imágenes coincidentes, mientras que los modelos CLIP de menor tamaño tuvieron problemas. Según Vendrow, los VLM más grandes “sólo están empezando a ser útiles” para clasificar consultas más difíciles.
Vendrow y sus colegas también evaluaron qué tan bien los modelos multimodales podían reclasificar esos 100 resultados, reorganizando qué imágenes eran más pertinentes para una búsqueda. En estas pruebas, incluso los grandes LLM entrenados con datos más seleccionados, como GPT-4o, tuvieron problemas: su puntuación de precisión fue de sólo el 59,6 por ciento, la puntuación más alta alcanzada por cualquier modelo.
Los investigadores presentaron estos resultados en la Conferencia sobre Sistemas de Procesamiento de Información Neural (NeurIPS) a principios de este mes.
Consultando por CONSULTAR
El conjunto de datos INQUIRE incluye consultas de búsqueda basadas en discusiones con ecólogos, biólogos, oceanógrafos y otros expertos sobre los tipos de imágenes que buscarían, incluidas las condiciones físicas y comportamientos únicos de los animales. Luego, un equipo de anotadores pasó 180 horas buscando en el conjunto de datos de iNaturalist con estas indicaciones, revisando cuidadosamente aproximadamente 200.000 resultados para etiquetar 33.000 coincidencias que se ajustaban a las indicaciones.
Por ejemplo, los anotadores utilizaron consultas como “un cangrejo ermitaño que utiliza desechos plásticos como caparazón” y “un cóndor de California etiquetado con un ’26’ verde” para identificar los subconjuntos del conjunto de datos de imágenes más grande que representan estos eventos raros y específicos.
Luego, los investigadores utilizaron las mismas consultas de búsqueda para ver qué tan bien los VLM podían recuperar imágenes de iNaturalist. Las etiquetas de los anotadores revelaron cuándo los modelos tenían dificultades para comprender las palabras clave de los científicos, ya que sus resultados incluían imágenes previamente etiquetadas como irrelevantes para la búsqueda. Por ejemplo, los resultados de los VLM para “secuoyas con cicatrices de incendio” a veces incluían imágenes de árboles sin ninguna marca.
«Se trata de una cuidadosa selección de datos, centrándose en capturar ejemplos reales de investigaciones científicas en áreas de investigación en ecología y ciencias ambientales», dice Sara Beery, profesora asistente de desarrollo profesional Homer A. Burnell en el MIT, investigadora principal de CSAIL y compañera. -autor principal del trabajo. “Ha resultado vital para ampliar nuestra comprensión de las capacidades actuales de los VLM en estos entornos científicos potencialmente impactantes. También ha esbozado brechas en la investigación actual que ahora podemos trabajar para abordar, particularmente para consultas de composición complejas, terminología técnica y las diferencias sutiles y detalladas que delinean las categorías de interés para nuestros colaboradores”.
«Nuestros hallazgos implican que algunos modelos de visión ya son lo suficientemente precisos como para ayudar a los científicos de vida silvestre a recuperar algunas imágenes, pero muchas tareas siguen siendo demasiado difíciles incluso para los modelos más grandes y de mejor rendimiento», dice Vendrow. «Aunque INQUIRE se centra en el monitoreo de la ecología y la biodiversidad, la amplia variedad de sus consultas significa que los VLM que funcionan bien en INQUIRE probablemente sobresalgan en el análisis de grandes colecciones de imágenes en otros campos de observación intensiva».
Las mentes inquisitivas quieren ver
Llevando su proyecto más allá, los investigadores están trabajando con iNaturalist para desarrollar un sistema de consulta que ayude mejor a los científicos y otras mentes curiosas a encontrar las imágenes que realmente quieren ver. Su demostración funcional permite a los usuarios filtrar las búsquedas por especie, lo que permite un descubrimiento más rápido de resultados relevantes como, por ejemplo, los diversos colores de ojos de los gatos. Vendrow y el coautor principal Omiros Pantazis, que recientemente recibió su doctorado en el University College de Londres, también pretenden mejorar el sistema de reclasificación aumentando los modelos actuales para proporcionar mejores resultados.
El profesor asociado de la Universidad de Pittsburgh, Justin Kitzes, destaca la capacidad de INQUIRE para descubrir datos secundarios. «Los conjuntos de datos sobre biodiversidad se están volviendo demasiado grandes para que los revise cualquier científico individual», dice Kitzes, que no participó en la investigación. “Este artículo llama la atención sobre un problema difícil y sin resolver, que es cómo buscar eficazmente en dichos datos con preguntas que vayan más allá de simplemente ‘quién está aquí’ para preguntar sobre las características individuales, el comportamiento y las interacciones entre especies. Ser capaz de descubrir de manera eficiente y precisa estos fenómenos más complejos en los datos de imágenes de la biodiversidad será fundamental para la ciencia fundamental y los impactos en el mundo real en ecología y conservación”.
Vendrow, Pantazis y Beery escribieron el artículo con el ingeniero de software de iNaturalist Alexander Shepard, los profesores de la University College London Gabriel Brostow y Kate Jones, el profesor asociado y coautor principal de la Universidad de Edimburgo Oisin Mac Aodha y el profesor asistente Grant Van de la Universidad de Massachusetts en Amherst. Horn, quien fue coautor principal. Su trabajo fue apoyado, en parte, por el Laboratorio de IA Generativa de la Universidad de Edimburgo, la Fundación Nacional de Ciencias de EE. UU./Consejo de Investigación de Ciencias Naturales e Ingeniería del Centro Global de IA y Cambio de Biodiversidad de Canadá, una beca de investigación de la Royal Society y el Bioma. Proyecto de Salud financiado por el Fondo Mundial para la Naturaleza del Reino Unido.