Noticias

De MLOps centrados en modelos a centrados en datos

MLOps (abreviatura de Machine Learning Operations) está evolucionando lentamente hacia un enfoque de ciclo de vida de ML independiente que incluye todos los pasos, desde la recopilación de datos hasta el control y la supervisión. A medida que la IA se convierta gradualmente en parte de los negocios cotidianos en lugar de una actividad innovadora, se convertirá en un estándar.

Con el tiempo, se han utilizado diferentes enfoques en MLOps. Los más populares son los enfoques basados ​​en modelos y basados ​​en datos. La división entre ellos está definida por el enfoque principal del sistema de IA: datos o código. ¿Cuál deberías elegir? Esta decisión requiere que el científico de datos elija qué componente jugará un papel más importante en el desarrollo de un modelo robusto. En este blog, evaluaremos ambos.

Desarrollo centrado en el modelo

Como sugiere el nombre, el desarrollo basado en modelos se centra en el rendimiento de los modelos de aprendizaje automático. Utiliza diferentes métodos experimentales para mejorar el rendimiento del modelo sin cambiar los datos. El objetivo principal de este enfoque es tomar el código y optimizarlo tanto como sea posible. También incluye código, arquitectura modelo y proceso de entrenamiento.

Si profundiza en este enfoque de desarrollo, el enfoque basado en modelos son modelos ML de alta calidad. En la práctica, esto significa que los desarrolladores se centran en utilizar los mejores algoritmos de ML y plataformas de IA. Este enfoque también es la base de grandes avances en el campo de la IA, como el desarrollo de marcos especializados como Tensorflow o PyTorch.

LEER  # 138 Hardware Slimbook One AMD

El desarrollo centrado en modelos ha existido desde los primeros días de la disciplina, por lo que se ha beneficiado de la adopción generalizada en varias aplicaciones de IA. La razón de esto se remonta al hecho de que la inteligencia artificial fue originalmente un campo centrado en la investigación. Históricamente, este enfoque se diseñó para los problemas desafiantes y los grandes conjuntos de datos que los expertos en ML buscan resolver mediante la optimización de los modelos de IA. También está impulsado por la adopción generalizada de código abierto, que permite el acceso gratuito a varios repositorios de GitHub. El desarrollo basado en modelos alienta a los desarrolladores a experimentar con las últimas técnicas y tratar de obtener los mejores resultados ajustando los modelos. Desde una perspectiva organizacional, es para empresas que tienen suficientes datos para entrenar modelos de aprendizaje automático.

Hablando de dificultades, los enfoques centrados en modelos requieren mucho trabajo manual en varias etapas del ciclo de vida de ML. Por ejemplo, los científicos de datos tienen que dedicar mucho tiempo al etiquetado de datos, la validación de datos o la formación de modelos. Este enfoque puede conducir a una entrega de proyectos más lenta, mayores costos y un menor retorno de la inversión. Esta es la razón principal por la que los profesionales consideran tratar de resolver este problema desde diferentes ángulos a través del desarrollo centrado en datos.

Desarrollo centrado en datos

Como se menciona a menudo, los datos están en el centro de cualquier iniciativa de IA. Un enfoque centrado en los datos toma en serio esta afirmación al interactuar sistemáticamente con conjuntos de datos para lograr mejores resultados y aumentar la precisión de las aplicaciones de aprendizaje automático.

En comparación con los enfoques centrados en el modelo, en este caso el modelo ML es fijo y todas las mejoras están relacionadas con los datos. Estas mejoras van desde un mejor etiquetado de datos hasta el uso de diferentes muestras de datos para entrenar o aumentar el tamaño del conjunto de datos. Este enfoque también mejora el procesamiento de datos al establecer una comprensión común del conjunto de datos.

Un enfoque centrado en los datos tiene algunas pautas básicas que se encargan de:

  • anotación de datos
  • aumento de datos
  • análisis de errores
  • Control de versiones de datos

Etiquetas de datos para el desarrollo centrado en datos

Etiquetas de datos asigna etiquetas a los datos. Este proceso proporciona información sobre el conjunto de datos, que luego utiliza el algoritmo para aprender. Hace hincapié tanto en el contenido como en la información estructural y, por lo tanto, normalmente incluye varios tipos de datos, unidades de medida o períodos de tiempo representados en el conjunto de datos. Tener las etiquetas correctas y consistentes puede definir el éxito de un proyecto de IA.

El desarrollo centrado en datos a menudo enfatiza la importancia de un etiquetado adecuado. Hay muchos ejemplos de cómo manejarlo; el objetivo clave es evitar inconsistencias y ambigüedades.A continuación puede encontrar imágenes cortesía de Andrew Ng ejemplo Etiquetas de datos en la práctica. En este caso, la etiqueta se usa para dos adjetivos: inconsistente y ambiguo.

Enriquecimiento de datos para el desarrollo centrado en datos

El aumento de datos es un proceso que implica la generación de nuevos datos en función de diversos medios, como la interpolación o la exploración. No siempre es necesario, pero en algunos casos, algunos modelos requieren una gran cantidad de datos en varias etapas del ciclo de vida de ML: capacitación, validación y síntesis de datos.

Cada vez que realice esta actividad, también es parte de la guía verificar la calidad de los datos y asegurarse de eliminar el ruido.

Análisis de errores para el desarrollo centrado en datos

El análisis de errores es el proceso que se realiza después de completar el entrenamiento del modelo. Su objetivo principal es identificar subconjuntos que se pueden utilizar para mejorar el conjunto de datos. Este es un trabajo diligente, ya que debe realizarse de forma iterativa para mejorar gradualmente la calidad de los datos y el rendimiento del modelo.

Control de versiones de datos para el desarrollo centrado en datos

El control de versiones de datos realiza un seguimiento de los cambios que se producen en los conjuntos de datos para identificar los cambios de rendimiento en los modelos. Permite la colaboración, simplifica el proceso de gestión de datos y acelera la entrega de canalizaciones de aprendizaje automático desde la experimentación hasta la producción.

Cuando se trata de dificultades, un enfoque centrado en los datos lucha principalmente con los datos. Por un lado, puede ser difícil de manejar y controlar. Por otro lado, si no es representativo de la población real, puede haber sesgos que hagan que el modelo funcione mal en la vida real. Finalmente, debido a los requisitos de datos, puede ser costoso o solo aplicable a proyectos donde los datos se han recopilado durante un período de tiempo más largo.

Desarrollo centrado en modelos y centrado en datos mediante MLOps

De hecho, ambos métodos están estrechamente relacionados con MLOps. Independientemente de la opción que elija un científico de datos, deberá seguir las pautas de MLOps e integrar su método en la herramienta de su elección. Los desarrolladores pueden usar las mismas herramientas pero usar diferentes métodos en diferentes proyectos. La principal diferencia puede ocurrir en el nivel del ciclo de vida de ML que cambia. Es importante tener en cuenta que este método afectará la forma en que el modelo se optimiza para un plan en particular, por lo que es importante elegirlo con cuidado para posicionar con éxito su proyecto.

Aprende sobre MLOps con los expertos de Canonical el 15 de febrero.

Regístrate ahora

Encantador flujo de Kube es una herramienta de MLOps integral diseñada para escalar modelos de aprendizaje automático a producción. Debido a sus características e integraciones, es capaz de admitir tanto el desarrollo centrado en el modelo como el centrado en los datos. Es una plataforma de código abierto que fomenta las contribuciones y representa la base que Canonical está desarrollando hacia un ecosistema MLOps en crecimiento, con varias integraciones en todos los niveles: hardware, herramientas y marcos de IA.

Más información sobre MLOps

LEER  El motor de juego de código abierto Theme Hospital CorsixTH v0.67 recibe la primera versión beta

Publicaciones relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba