Con la ayuda de una red de lenguaje artificial, los neurocientíficos del MIT han descubierto qué tipo de oraciones tienen más probabilidades de activar los centros clave de procesamiento del lenguaje del cerebro.
El nuevo estudio revela que las oraciones que son más complejas, ya sea debido a una gramática inusual o a un significado inesperado, generan respuestas más fuertes en estos centros de procesamiento del lenguaje. Las oraciones que son muy sencillas apenas involucran estas regiones, y las secuencias de palabras sin sentido tampoco hacen mucho por ellas.
Por ejemplo, los investigadores descubrieron que esta red cerebral era más activa al leer oraciones inusuales como «Las señales de compra y venta siguen siendo particulares», tomadas de un conjunto de datos de lenguaje disponible públicamente llamado C4. Sin embargo, se quedó en silencio al leer algo muy sencillo, como “Estábamos sentados en el sofá”.
«La información tiene que ser lo suficientemente parecida a un lenguaje para involucrar al sistema», dice Evelina Fedorenko, Profesora Asociada de Neurociencia en el MIT y miembro del Instituto McGovern para la Investigación del Cerebro del MIT. “Y luego, dentro de ese espacio, si las cosas son realmente fáciles de procesar, entonces no hay mucha respuesta. Pero si las cosas se ponen difíciles o sorprendentes, si hay una construcción inusual o un conjunto inusual de palabras con las que quizás no estés muy familiarizado, entonces la red tiene que trabajar más duro”.
Fedorenko es el autor principal del estudio, que aparece hoy en Naturaleza Comportamiento Humano. La estudiante graduada del MIT Greta Tuckute es la autora principal del artículo.
Lenguaje de procesamiento
En este estudio, los investigadores se centraron en las regiones de procesamiento del lenguaje que se encuentran en el hemisferio izquierdo del cerebro, que incluye el área de Broca, así como otras partes de los lóbulos frontal y temporal izquierdos del cerebro.
«Esta red lingüística es muy selectiva en cuanto al idioma, pero ha sido más difícil descubrir realmente qué está pasando en estas regiones lingüísticas», dice Tuckute. «Queríamos descubrir qué tipos de oraciones, qué tipos de aportes lingüísticos impulsan la red lingüística del hemisferio izquierdo».
Los investigadores comenzaron recopilando un conjunto de 1.000 oraciones tomadas de una amplia variedad de fuentes: ficción, transcripciones de palabras habladas, textos web y artículos científicos, entre muchas otras.
Cinco participantes humanos leyeron cada una de las oraciones mientras los investigadores midieron la actividad de su red lingüística mediante imágenes de resonancia magnética funcional (fMRI). Luego, los investigadores introdujeron esas mismas 1.000 oraciones en un modelo de lenguaje grande (un modelo similar a ChatGPT, que aprende a generar y comprender el lenguaje al predecir la siguiente palabra en grandes cantidades de texto) y midieron los patrones de activación del modelo en respuesta a cada una. oración.
Una vez que tuvieron todos esos datos, los investigadores entrenaron un modelo de mapeo, conocido como “modelo de codificación”, que relaciona los patrones de activación observados en el cerebro humano con los observados en el modelo de lenguaje artificial. Una vez entrenado, el modelo podría predecir cómo respondería la red de lenguaje humano a cualquier oración nueva en función de cómo respondió la red de lenguaje artificial a estas 1000 oraciones.
Luego, los investigadores utilizaron el modelo de codificación para identificar 500 nuevas oraciones que generarían una actividad máxima en el cerebro humano (las oraciones «impulsoras»), así como oraciones que provocarían una actividad mínima en la red lingüística del cerebro (las oraciones «supresoras»). .
En un grupo de tres nuevos participantes humanos, los investigadores descubrieron que estas nuevas oraciones efectivamente impulsaban y suprimían la actividad cerebral como se predijo.
«Esta modulación de ‘bucle cerrado’ de la actividad cerebral durante el procesamiento del lenguaje es novedosa», afirma Tuckute. “Nuestro estudio muestra que el modelo que estamos usando (que relaciona las activaciones del modelo del lenguaje y las respuestas cerebrales) es lo suficientemente preciso para hacer esto. Esta es la primera demostración de este enfoque en áreas del cerebro implicadas en la cognición de nivel superior, como la red del lenguaje”.
Complejidad lingüística
Para descubrir qué hacía que ciertas oraciones impulsaran la actividad más que otras, los investigadores analizaron las oraciones basándose en 11 propiedades lingüísticas diferentes, incluyendo gramaticalidad, plausibilidad, valencia emocional (positiva o negativa) y qué tan fácil es visualizar el contenido de la oración.
Para cada una de esas propiedades, los investigadores pidieron a los participantes de plataformas de crowdsourcing que calificaran las oraciones. También utilizaron una técnica computacional para cuantificar la «sorpresa» de cada oración, o qué tan poco común es en comparación con otras oraciones.
Este análisis reveló que las oraciones con mayor sorpresa generan respuestas más altas en el cerebro. Esto es consistente con estudios previos que muestran que las personas tienen más dificultades para procesar oraciones con mayor sorpresa, dicen los investigadores.
Otra propiedad lingüística que se correlacionó con las respuestas de la red lingüística fue la complejidad lingüística, que se mide por cuánto se adhiere una oración a las reglas de la gramática inglesa y qué tan plausible es, es decir, cuánto sentido tiene el contenido, aparte de la gramática.
Las oraciones en ambos extremos del espectro (ya sean extremadamente simples o tan complejas que no tienen ningún sentido) provocaron muy poca activación en la red lingüística. Las respuestas más numerosas provinieron de frases que tienen cierto sentido pero que requieren trabajo para descifrarlas, como «Jiffy Lube de… de terapias, sí», que provino del conjunto de datos Corpus of Contemporary American English.
«Descubrimos que las oraciones que provocan la respuesta cerebral más alta tienen algo gramatical extraño y/o un significado extraño», dice Fedorenko. «Hay algo ligeramente inusual en estas frases».
Los investigadores ahora planean ver si pueden extender estos hallazgos a hablantes de idiomas distintos del inglés. También esperan explorar qué tipo de estímulos pueden activar regiones de procesamiento del lenguaje en el hemisferio derecho del cerebro.
La investigación fue financiada por una beca de Amazon del Science Hub, una beca de doctorado internacional de la Asociación Estadounidense de Mujeres Universitarias, el Laboratorio de IA Watson del MIT-IBM, los Institutos Nacionales de Salud, el Instituto McGovern, el Centro Simons para el Cerebro Social. y el Departamento de Ciencias Cognitivas y del Cerebro del MIT.