Resumen:
En las últimas décadas, el avance del Machine Learning (ML) y la ciencia de datos han transformado numerosos campos, desde la medicina y las finanzas hasta la ingeniería y las ciencias sociales. En el núcleo de estos desarrollos se encuentra el problema de la optimización numérica, esencial para el ajuste eficiente de los parámetros de los modelos de aprendizaje automático. La mayoría de estos modelos se entrenan minimizando una función de pérdida, que cuantifica el error cometido por el modelo, mediante algoritmos iterativos. En este contexto, los métodos basados en gradientes se han consolidado como herramientas fundamentales. El algoritmo de descenso por gradiente presenta varias variantes que se adaptan a diferentes contextos computacionales y características de los datos. El descenso por gradiente estocástico (SGD) utiliza una única muestra por iteración, lo que permite un entrenamiento rápido y eficiente en grandes volúmenes de datos, aunque con mayor variabilidad. El descenso por mini-lotes (batch) equilibra estabilidad y velocidad computacional, al usar pequeños subconjuntos del conjunto de datos. Por otra parte, los métodos adaptativos como Momentum, Adam y RMSprop ajustan dinámicamente la tasa de aprendizaje utilizando información pasada del gradiente, mejorando la convergencia en funciones no convexas o con múltiples mínimos. Estas estrategias han sido clave para el entrenamiento de redes neuronales profundas y modelos complejos. Este taller revisa el fundamento teórico y práctico de estos métodos, generando un espacio de aprendizaje desde ideas simples que luego pueden aplicarse a escenarios de mayor complejidad vinculados con modelos de ML reales.
Autores: