• Sobre nosotros
  • Política de privacidad
  • Anunciar
  • Contactos
miércoles, octubre 15, 2025
Retail
No Result
View All Result
Anunciar
Contactos
  • Nacional
  • International
  • Política
  • Economía
  • Ciencia y Tecnología
    • SpaceX
    • Inteligencia Artificial
    • Metaverse
  • Deportes
  • Sociedad
    • Cultura
    • Mascotas
    • Construcción y Vivienda
    • Turismo y Viajes
    • Música y películas
    • Psicología
    • Horóscopos
    • Moda y Estilo
    • Familia
    • Belleza
  • Salud
  • Turismo y Viajes
  • Gastronomía
EntreNosotros | Portal de noticias
No Result
View All Result

Cómo construir leyes de escala de IA para capacitación eficiente de LLM y maximización del presupuesto

Escrito por Entrenosotros
17/09/2025
in Inteligencia Artificial
52 2
0
Cómo construir leyes de escala de IA para capacitación eficiente de LLM y maximización del presupuesto

Cuando los investigadores están construyendo grandes modelos de idiomas (LLM), su objetivo es maximizar el rendimiento bajo un presupuesto informático y financiero particular. Dado que la capacitación de un modelo puede ascender a millones de dólares, los desarrolladores deben ser juiciosos con decisiones de costo impactante sobre, por ejemplo, la arquitectura del modelo, los optimizadores y los conjuntos de datos de capacitación antes de comprometerse con un modelo. Para anticipar la calidad y precisión de las predicciones de un modelo grande, los profesionales a menudo recurren a las leyes de escala: el uso de modelos más pequeños y más baratos para tratar de aproximar el rendimiento de un modelo objetivo mucho más grande. El desafío, sin embargo, es que hay miles de formas de crear una ley de escala.

El nuevo trabajo de los investigadores del laboratorio MIT y MIT-IBM Watson AI aborda esto al acumular y liberar una colección de cientos de modelos y métricas relacionadas con la capacitación y el rendimiento para aproximar más de mil leyes de escala. A partir de esto, el equipo desarrolló un metaanálisis y una guía sobre cómo seleccionar modelos pequeños y estimar las leyes de escala para diferentes familias de modelos LLM, de modo que el presupuesto se aplica de manera óptima para generar predicciones de rendimiento confiables.

YOU MAY ALSO LIKE

Optimizar los subsidios alimentarios: aplicar plataformas digitales para maximizar la nutrición

Verificar la calidad de los materiales ahora es más fácil con una nueva herramienta de inteligencia artificial

«La noción de que es posible que desee tratar de construir modelos matemáticos del proceso de capacitación tiene un par de años, pero creo que lo nuevo aquí es que la mayor parte del trabajo que la gente había estado haciendo antes está diciendo:» ¿Podemos decir algo post-hoc sobre lo que sucedió cuando capacitamos todos estos modelos, de modo que estamos tratando de determinar cómo capacitar a un nuevo modelo a gran escala, podemos tomar las mejores decisiones sobre cómo usar nuestro presupuesto compultado? Profesor del Departamento de Ingeniería Eléctrica e Informática e Investigador Principal del Laboratorio MIT-IBM Watson AI.

La investigación fue presentada recientemente en la Conferencia Internacional sobre Aprendizaje Autor por Andreas, junto con los investigadores de laboratorio de AI MIT-IBM Watson, Leshem Choshen y Yang Zhang de IBM Research.

Rendimiento de extrapolar

No importa cómo lo corte, desarrollar LLM es un esfuerzo costoso: desde la toma de decisiones con respecto al número de parámetros y tokens, selección y tamaño de datos y técnicas de capacitación para determinar la precisión y ajuste de la salida a las aplicaciones y tareas objetivo. Las leyes de escala ofrecen una forma de pronosticar el comportamiento del modelo relacionando la pérdida de un modelo grande con el rendimiento de modelos más pequeños y menos costosos de la misma familia, evitando la necesidad de capacitar completamente a cada candidato. Principalmente, las diferencias entre los modelos más pequeños son el número de parámetros y el tamaño del entrenamiento de tokens. Según Choshen, las leyes de escala aclaración no solo permiten mejores decisiones de pre-entrenamiento, sino que también democratan el campo al permitir a los investigadores sin grandes recursos para comprender y desarrollar leyes de escala efectivas.

La forma funcional de las leyes de escala es relativamente simple, incorporando componentes de los pequeños modelos que capturan el número de parámetros y su efecto de escala, el número de tokens de capacitación y su efecto de escala, y el rendimiento de referencia para la familia de interés modelo. Juntos, ayudan a los investigadores a estimar la pérdida de rendimiento de un modelo de gran objetivo; Cuanto más pequeña sea la pérdida, mejor son las salidas del modelo de destino.

Estas leyes permiten que los equipos de investigación pesen compensaciones de manera eficiente y prueben la mejor manera de asignar recursos limitados. Son particularmente útiles para evaluar la escala de una cierta variable, como el número de tokens y para las pruebas A/B de diferentes configuraciones de pre-entrenamiento.

En general, las leyes de escala no son nuevas; Sin embargo, en el campo de la IA, surgieron a medida que los modelos crecían y los costos se dispararon. «Es como si las leyes de escala aparecieran en algún momento del campo», dice Choshen. «Comenzaron a llamar la atención, pero nadie realmente probó lo buenos que son y qué debes hacer para hacer una buena ley de escala». Además, las leyes de escala eran también una caja negra, en cierto sentido. «Cada vez que las personas han creado leyes de escala en el pasado, siempre ha sido solo un modelo, o un modelo de familia, y un conjunto de datos y un desarrollador», dice Andreas. «Realmente no había habido mucho metaanálisis sistemático, ya que todos están entrenando individualmente sus propias leyes de escala. Entonces, [we wanted to know,] ¿Hay tendencias de alto nivel que ves en esas cosas?

Construyendo mejor

Para investigar esto, Choshen, Andreas y Zhang crearon un gran conjunto de datos. Recolectaron LLM de 40 familias modelo, incluidas Pythia, OPT, OLMO, LLAMA, Bloom, T5-Pile, ModuleFormer Mezcla de expertos, GPT y otras familias. Estos incluyeron 485 modelos únicos previamente capacitados, y cuando están disponibles, datos sobre sus puntos de control de entrenamiento, costo computacional (FLOPS), épocas de entrenamiento y la semilla, junto con 1.9 millones de métricas de rendimiento de pérdidas y tareas aguas abajo. Los modelos diferían en sus arquitecturas, pesos, etc. Utilizando estos modelos, los investigadores se ajustan a más de 1,000 leyes de escala y compararon su precisión entre las arquitecturas, los tamaños de los modelos y los regímenes de capacitación, así como para probar cómo el número de modelos, la inclusión de los puntos de control de capacitación intermedia y la capacitación parcial afectaron el poder predictivo de las leyes de escala a los modelos objetivo. Usaron mediciones de error relativo absoluto (are); Esta es la diferencia entre la predicción de la ley de escala y la pérdida observada de un modelo grande y entrenado. Con esto, el equipo comparó las leyes de escala, y después del análisis, las recomendaciones prácticas destiladas para los profesionales de la IA sobre lo que hace leyes de escala efectivas.

Sus pautas compartidas caminan al desarrollador a través de pasos y opciones para considerar y las expectativas. Primero, es fundamental decidir sobre un presupuesto de cómputo y precisión del modelo objetivo. El equipo descubrió que el 4 por ciento es la mejor precisión alcanzable que uno podría esperar debido al ruido aleatorio de semillas, pero hasta el 20 por ciento sigue siendo útil para la toma de decisiones. Los investigadores identificaron varios factores que mejoran las predicciones, como incluir puntos de control de entrenamiento intermedio, en lugar de depender solo de las pérdidas finales; Esto hizo que las leyes de escala fueran más confiables. Sin embargo, los datos de entrenamiento muy tempranos antes de 10 mil millones de tokens son ruidosos, reducen la precisión y deben descartarse. Recomendan priorizar la capacitación de más modelos en una propagación de tamaños para mejorar la robustez de la predicción de la ley de escala, no solo los modelos más grandes; Seleccionar cinco modelos proporciona un punto de partida sólido.

En general, incluir modelos más grandes mejora la predicción, pero los costos pueden ahorrarse entrenando parcialmente al modelo objetivo a aproximadamente el 30 por ciento de su conjunto de datos y lo usan para extrapolación. Si el presupuesto está considerablemente limitado, los desarrolladores deben considerar capacitar a un modelo más pequeño dentro de la familia del modelo objetivo y pedir prestado parámetros de la ley de escala de una familia modelo con una arquitectura similar; Sin embargo, esto puede no funcionar para los modelos codificadores -decodificadores. Por último, el grupo de investigación MIT-IBM encontró que cuando se compararon las leyes de escala entre las familias modelo, hubo una fuerte correlación entre dos conjuntos de hiperparametros, lo que significa que tres de los cinco hiperparámetros explicaron casi toda la variación y probablemente podrían capturar el comportamiento del modelo. Juntas, estas pautas proporcionan un enfoque sistemático para hacer que la estimación de la ley de escala sea más eficiente, confiable y accesible para los investigadores de IA que trabajan bajo diferentes restricciones presupuestarias.

Surgieron varias sorpresas durante este trabajo: los modelos pequeños parcialmente entrenados siguen siendo muy predictivos, y además, las etapas de entrenamiento intermedias de un modelo totalmente entrenado se pueden usar (como si fueran modelos individuales) para la predicción de otro modelo objetivo. «Básicamente, no pagas nada en la capacitación, porque ya entrenaste al modelo completo, por lo que el modelo a medias entrenada, por ejemplo, es solo un subproducto de lo que hiciste», dice Choshen. Otra característica señaló que Andreas fue que, cuando se agregó, la variabilidad entre las familias modelo y los diferentes experimentos saltaron y fue más ruidoso de lo esperado. Inesperadamente, los investigadores encontraron que es posible utilizar las leyes de escala en modelos grandes para predecir el rendimiento a modelos más pequeños. Otra investigación en el campo ha planteado la hipótesis de que los modelos más pequeños eran una «bestia diferente» en comparación con las grandes; Sin embargo, Choshen no está de acuerdo. «Si son totalmente diferentes, deberían haber mostrado un comportamiento totalmente diferente, y no lo hacen».

Si bien este trabajo se centró en el tiempo de capacitación de modelos, los investigadores planean extender su análisis a la inferencia del modelo. Andreas dice que no es: «¿Cómo mejora mi modelo a medida que agrego más datos de entrenamiento o más parámetros, sino que, al dejar que piense por más tiempo, dibuje más muestras. Creo que definitivamente hay lecciones que aprender aquí sobre cómo también construir modelos predictivos de cuánto pensar que debe hacer a tiempo de ejecución». Él dice que la teoría de las leyes de escala de tiempo de inferencia podría volverse aún más crítica porque «no es como si fuera a entrenar un modelo y luego terminar». [Rather,] Es cada vez que un usuario viene a mí, tendrá una nueva consulta y necesito descubrir qué [my model needs] pensar en encontrar la mejor respuesta. Por lo tanto, poder construir ese tipo de modelos predictivos, como lo estamos haciendo en este documento, es aún más importante «.

Esta investigación fue apoyada, en parte, por el Laboratorio MIT-IBM Watson AI y una Comunidad de Investigación Sloan.

Compartir7Tweet4Compartir1CompartirCompartir

Deja una respuesta Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias recientes

Bruselas defiende a España tras las amenazas de Trump: «Responderemos a cualquier medida contra un estado miembro»

Bruselas defiende a España tras las amenazas de Trump: «Responderemos a cualquier medida contra un estado miembro»

15/10/2025
Stephen Starr aprendió a moverse en el paseo marítimo de Atlantic City. Ahora ha vuelto.

Stephen Starr aprendió a moverse en el paseo marítimo de Atlantic City. Ahora ha vuelto.

15/10/2025
Huelga general 15 de octubre en Málaga: horarios y cómo te afectará

Huelga general 15 de octubre en Málaga: horarios y cómo te afectará

15/10/2025

Amigos

Sharklinker, Mobellex.fr, Tiksaviems.lt, 365nachrichten, OnePlaceTwoStories, Mobellex.ch, REXFEL, CBDNutzen, Mobellex.de, CBDTropf

EntreNosotros Logo T

Entrenosotros es un portal de noticias que pretende ofrecer a sus lectores noticias de todo el mundo. Cubrimos desde noticias políticas hasta contenidos sobre estilo de vida.

Bruselas defiende a España tras las amenazas de Trump: «Responderemos a cualquier medida contra un estado miembro»

Bruselas defiende a España tras las amenazas de Trump: «Responderemos a cualquier medida contra un estado miembro»

15/10/2025
Stephen Starr aprendió a moverse en el paseo marítimo de Atlantic City. Ahora ha vuelto.

Stephen Starr aprendió a moverse en el paseo marítimo de Atlantic City. Ahora ha vuelto.

15/10/2025

Categorías

  • Belleza
  • Ciencia y Tecnología
  • Construcción y Vivienda
  • Cultura
  • Deportes
  • Economía
  • Familia
  • Gastronomía
  • Inteligencia Artificial
  • International
  • Málaga
  • Mascotas
  • Música y películas
  • Nacional
  • Otros
  • Política
  • Salud
  • Sociedad
  • Turismo y Viajes
  • Sobre nosotros
  • Política de privacidad
  • Anunciar
  • Contactos

© 2023 EntreNosotros. Reservados todos los derechos. $AOGX - Muebles para el hogar - Noticias Alemanas - CBDtropf.DE - Noticias de Lituania - Rexfel.COM

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Nacional
  • International
  • Política
  • Economía
  • Ciencia y Tecnología
    • SpaceX
    • Inteligencia Artificial
    • Metaverse
  • Deportes
  • Sociedad
    • Cultura
    • Mascotas
    • Construcción y Vivienda
    • Turismo y Viajes
    • Música y películas
    • Psicología
    • Horóscopos
    • Moda y Estilo
    • Familia
    • Belleza
  • Salud
  • Turismo y Viajes
  • Gastronomía

© 2023 EntreNosotros. Reservados todos los derechos. $AOGX - Muebles para el hogar - Noticias Alemanas - CBDtropf.DE - Noticias de Lituania - Rexfel.COM