El momentum es una técnica utilizada en el entrenamiento de modelos de Machine Learning para optimizar algoritmos de aprendizaje, como el descenso de gradiente. Su objetivo principal es acelerar la convergencia y evitar que el modelo quede atrapado en mínimos locales durante el ajuste de los parámetros.
El momentum funciona añadiendo una fracción de la actualización anterior a la actualización actual. Esto permite que el algoritmo mantenga un "impulso" en la dirección correcta, especialmente en regiones de alta pendiente o con ruido en el gradiente. Matemáticamente, se calcula como:
Donde:
Esto suaviza las actualizaciones y da prioridad a las direcciones consistentes, acelerando el aprendizaje en valles profundos y minimizando oscilaciones en mesetas.
1. Descenso de gradiente estocástico (SGD) con momentum:
2. Optimización en problemas de alta dimensionalidad:
3. Reducción de oscilaciones:
Para más información, puedes consultar la documentación oficial de TensorFlow sobre optimización con momentum.
Jorge García
Fullstack developer