Guía optimizada de reentrenamiento para MLOps

En general, es importante comprender claramente los requisitos de su negocio y el problema que está tratando de resolver al determinar el mejor enfoque para automatizar el reentrenamiento de un modelo de aprendizaje automático activo. También es importante supervisar continuamente el rendimiento del modelo y realizar ajustes en la cadencia de reentrenamiento y las métricas según sea necesario.

Barbara

Enfoques para el reentrenamiento automático de modelos

  • Fijo: Reentrenamiento a una cadencia fija (por ejemplo, diaria, semanal, mensual)
  • Dinámico: Reentrenamiento ad hoc activado en función de las métricas de rendimiento del modelo.

Y todo este proceso puede desplegarse en 2 entornos:

  • Nube: La más común. Ofrece grandes ventajas de flexibilidad.
  • Edge: Ideal para casos de uso que requieran privacidad, seguridad o baja latencia

Estrategia de reentrenamiento:

Automatizar el reentrenamiento de un modelo de aprendizaje automático puede ser una tarea compleja, pero existen algunas prácticas recomendadas que pueden ayudar a guiar el diseño.

1. Métricas para activar el reentrenamiento: 

Las métricas utilizadas para activar el reentrenamiento dependerán del modelo y su uso. Cada métrica necesitará un umbral para activar el reentrenamiento cuando el rendimiento del modelo caiga por debajo.

Algunas métricas ideales para activar el reentrenamiento del modelo son:

  • Deriva de la predicción (puntuación o etiqueta)
  • Degradación de la métrica de rendimiento
  • Degradación de la métrica de rendimiento para segmentos/cohortes específicos.
  • Deriva de características (Feature drift)
  • Deriva de embeddings

2. Asegurar que el nuevo modelo funcione

El nuevo modelo deberá ser probado o validado antes de ponerse en producción para reemplazar al anterior. Para ello, se recomiendan varios enfoques:

  • Revisión humana
  • Comprobaciones automatizadas de métricas en el proceso CI/CD

3. Estrategia de promoción para el nuevo modelo

La estrategia de promoción del nuevo modelo dependerá de su impacto en la empresa. En algunos casos, puede ser apropiado reemplazar automáticamente el modelo antiguo por el nuevo. Pero en otros casos, el nuevo modelo puede requerir pruebas A/B antes de reemplazar el modelo antiguo.

Algunas estrategias a considerar para las pruebas de modelos en vivo son:

  • Campeón vs. Desafiante: sirve el tráfico de producción a ambos modelos, pero solo utiliza la predicción/respuesta del modelo existente (campeón) en la aplicación. Los datos del modelo desafiante se almacenan para su análisis, pero no se utilizan.
  • Pruebas A/B: divida el tráfico de producción entre los dos modelos durante un período de experimentación determinado y compare las métricas clave al final del experimento para decidir qué modelo promover.
  • Despliegue Canary: Comience redirigiendo un pequeño porcentaje del tráfico de producción al nuevo modelo. Dado que se encuentra en una ruta de producción, esto ayuda a detectar problemas reales con el nuevo modelo, pero limita el impacto a un pequeño porcentaje de usuarios. Aumente el tráfico al nuevo modelo hasta que reciba el 100% del tráfico.

4. Datos del bucle de retroalimentación de reentrenamiento

Una vez que identificamos que el modelo necesita ser retenido, el siguiente paso es elegir el conjunto de datos adecuado para volver a entrenar. Aquí hay algunas recomendaciones para asegurar que los nuevos datos de entrenamiento mejorarán el rendimiento del modelo.

  • Si el modelo funciona bien en general, pero no cumple con los criterios de rendimiento óptimos en algunos segmentos, el nuevo conjunto de datos de entrenamiento debe contener puntos de datos adicionales para estos segmentos de menor rendimiento. Se puede utilizar una estrategia simple de muestreo ascendente para crear un nuevo conjunto de datos de entrenamiento dirigido a estos segmentos de bajo rendimiento.
  • Si el modelo se entrena en un intervalo de tiempo pequeño, el conjunto de datos de entrenamiento puede no capturar y representar con precisión todos los patrones posibles que aparecerán en los datos de producción en vivo. Para evitar esto, evite entrenar el modelo solo con datos recientes.
  • Si la arquitectura de su modelo sigue el diseño de aprendizaje por transferencia, es suficiente con añadir nuevos datos al modelo durante el reentrenamiento, sin perder los patrones que el modelo ya ha aprendido de los datos de entrenamiento anteriores.

5. ROI medible

La medición del impacto en los costes varía según el entorno de implementación (cloud vs. edge).

Nube:

Si bien es difícil calcular el ROI directo de algunas tareas de IA, el valor del reentrenamiento optimizado de modelos es simple, tangible y posible de calcular directamente. Los costes de computación y almacenamiento de los trabajos de entrenamiento de modelos a menudo ya se registran como parte de los costes de computación en la nube. A menudo, también se puede calcular el impacto empresarial de un modelo.

Al optimizar el reentrenamiento, tenemos en cuenta tanto los costes de reentrenamiento como el impacto del rendimiento del modelo en el negocio ("ROI de la IA"). Podemos sopesar estos costes entre sí para justificar el coste de los modelos de reentrenamiento.

Coste de reentrenamiento = (coste de computación para el reentrenamiento + coste de almacenamiento del nuevo modelo) x frecuencia    

Edge:

El reentrenamiento en el Edge puede tener ventajas, como la privacidad de los datos y la reducción de la latencia, ya que los datos no tienen que transmitirse a través de una red y pueden permanecer en el dispositivo. Además, el reentrenamiento en el Edge puede ser necesario para adaptar el modelo a los cambios en el entorno.

El coste de reentrenar los modelos de machine learning en el Edge depende de varios factores, como el tamaño y la complejidad del modelo, la cantidad y la calidad de los datos disponibles, la capacidad de procesamiento de la Unidad de Procesamiento Edge (EPU) y el coste de la energía.

En general, el proceso de reentrenamiento de modelos de aprendizaje automático en el Edge puede ser más caro que hacerlo en la nube debido a las limitaciones de recursos de la EPU y la necesidad de transmitir datos a través de una red, lo que puede ser lento y costoso. Además, los modelos de aprendizaje automático a menudo requieren grandes cantidades de datos para entrenar, lo que puede requerir una gran cantidad de almacenamiento en el Edge.

Sin embargo, también existen técnicas y herramientas para reducir el coste del reentrenamiento en el Edge, como el uso de técnicas de aprendizaje federado para filtrar solo los datos necesarios, el aprendizaje por transferencia para aprovechar los modelos preentrenados, la optimización de los modelos para dispositivos de bajo consumo y la selección cuidadosa de los datos de entrenamiento para reducir el tamaño del conjunto de datos requerido.

La transición del reentrenamiento del modelo a intervalos fijos al reentrenamiento automatizado del modelo activado por el rendimiento del modelo ofrece numerosas ventajas a las organizaciones, desde la reducción de los costes de TI en un momento en que los costes de la nube están aumentando hasta la mejora del ROI de la inteligencia artificial mediante la mejora del rendimiento del modelo.

Barbara, la plataforma Edge Cibersegura para MLOps

Barbara Industrial Edge Platform es una herramienta potente que puede ayudar a las organizaciones a simplificar y acelerar sus implementaciones de Edge ML, construyendo, orquestando y manteniendo fácilmente aplicaciones nativas o basadas en contenedores a través de miles de nodos Edge distribuidos.

Los datos más importantes de la industria comienzan ‘en el Edge’ a través de miles de dispositivos IoT, plantas industriales y máquinas de equipos. Descubra cómo convertir los datos en información y acciones en tiempo real, con la plataforma más eficiente, económica y sin intervención.

Solicite una demostración.