Tutoriales

cambio de covarianza

Cambiar las distribuciones de varias variables del tren a la prueba se denomina cambio de conjunto de datos. Esto puede dar lugar a diversos problemas a la hora de predecir valores en el modelo desplegado. Los turnos vienen en una variedad de formas. Uno de los cambios es el cambio de covarianza que ocurre dentro de las variables independientes de los datos del tren y de la prueba. Veremos el cambio de registro en detalle, incluida su explicación, causas, identificación y cambio de covariante.

¿Qué son la varianza y la covarianza?

La dispersión de los datos se mide por la varianza. Nos dice qué tan distribuidos están los datos alrededor de un número específico «verdadero» o «correcto» (tendencia central; una medida de esto es la media de los datos. En el análisis univariado, el término varianza se usa para describir la variable de comportamiento de un individuo. La covarianza se usa en el análisis multivariante para estudiar el comportamiento común de dos variables. Cuando dos variables se mueven en la misma dirección, su covarianza es positiva, es negativa cuando se mueven en direcciones opuestas.

¿Qué es el cambio de conjuntos de datos?

Cuando la distribución de los datos de su tren y prueba difiere, esto se denomina cambio de registro. Debido a que el modelo se entrenó en una distribución y ahora se usa para predecir diferentes distribuciones de datos, lo que resulta en una menor precisión de los datos de prueba, por lo tanto, siempre debe probar su tren y las distribuciones de datos de prueba y hacerlas lo más similares posible.

Tipos de movimiento de datos

  1. Cambios en las variables independientes o características del conjunto de datos: cambio de covariable
  2. Cambios en la variable de destino o la variable dependiente en el conjunto de datos:
    más temprano cambio de probabilidad
  3. Cambio de conjuntos de datos cruzados en asociación entre las variables independientes y objetivo: cambio de concepto

¿Por qué está ocurriendo un movimiento récord?

Sesgo de muestreo: La variación en la distribución se debe al hecho de que los datos de entrenamiento se obtuvieron a través de una metodología sesgada y no representan con precisión el entorno operativo del que se obtuvieron los datos de prueba.

Entornos no estacionarios: El entorno de formación difiere del entorno de prueba, ya sea en el tiempo o en el espacio.

¿Qué es el cambio de covariables en el aprendizaje automático?

La diferencia entre la distribución de los conjuntos de datos de entrenamiento y de prueba se denomina cambio de covariable. Esto significa que el conjunto de datos se entrena en un tipo de distribución y el modelo se usa para predecir los datos en otra distribución. El cambio de covariable puede indicar que el modelo no puede generalizar lo suficientemente bien. La capacidad de un modelo para aplicarse a nuevos datos utilizando características derivadas de los datos de entrenamiento se denomina generalización. Uno pensaría que provienen de la misma distribución, pero ese casi nunca es el caso. Debido a esto, debe mantener sus modelos actualizados con el último conjunto de trenes. Esto generalmente es causado por cambios en el estado de las variables latentes, que pueden ser temporales (incluidos los cambios en la estacionariedad de un proceso temporal), espaciales o menos obvios. Uno también puede imaginarse mirando una «región» inexplorada del universo de datos. Es un área de investigación fascinante porque se puede observar en la naturaleza de diversas formas. Podemos lidiar con esto en el espacio de datos a través de la extrapolación creativa, pero eso rara vez funciona, y alternativas como reestimar las variables latentes o intentar ajustar una función de predicción al dominio. Se requieren circunstancias especiales, como variables de tiempo estacionarias y, en ocasiones, datos puramente numéricos para determinar si realmente hemos dejado nuestro espacio de covariables original. En este escenario, podemos calcular el espacio de datos del casco convexo y ver si nuestro nuevo punto de datos queda fuera de él. Por supuesto, esto es computacionalmente intensivo y, por lo tanto, rara vez se realiza a menos que nuestras predicciones sean correctas. Por supuesto, depende de la aplicación.

Ejemplos de cambio covariante

La detección de la desviación de covariables y otros tipos de desviación del modelo es un paso importante para mejorar la precisión de las pruebas del modelo. Los siguientes son algunos ejemplos de cambios de covariables en casos de uso comunes de aprendizaje automático:

Clasificación de imágenes y detección de rostros: Es posible que un modelo haya sido entrenado con imágenes de solo unas pocas razas de perros, pero tendrá un desempeño deficiente si se usa para predecir razas que no estaban presentes en los datos de entrenamiento.

Reconocimiento y traducción de voz: Un modelo se puede entrenar en hablantes con un acento específico. Cuando se usa con habla con nuevos dialectos o acentos, el modelo puede lograr un alto nivel de precisión con los datos de entrenamiento, pero se vuelve inexacto cuando se usa con nuevos dialectos o acentos.

Cuidado de la salud: Un modelo entrenado con datos de entrenamiento accesibles de pacientes de 20 años es menos preciso cuando se analizan datos de pacientes de 60 años o más.

Manejo del cambio de covarianza

Estamos eliminando las características categorizadas como desviadas de nuestra estrategia de manejo de desviaciones récord. Sin embargo, la simple eliminación de funciones puede provocar la pérdida de datos. Luego podemos simplemente omitir las funciones menos importantes. Como resultado, se eliminan las entidades con un valor de desviación superior a un determinado umbral. A continuación se muestra el código que calcula y muestra la importancia de las características para un modelo de regresión lineal.

desde sklearn.datasets import make_regression
de skl
Earn.linear_model Importar regresión lineal
desde matplotlib importar pyplot

X, y = hacer_regresión(n_ejemplos=2000, n_funciones=15, n_informativo=5, estado_aleatorio=1)

Modelo = Regresión Lineal()

modelo.fit(x, y)

coef_array = modelo.coef_

hacia yo, v en enumerar(matriz_coef):
prensa(‘función: %0d, puntuación: %.5f’ % (yo, v))

pyplot.bar([x for x in range(len(coef_array))]matriz_coef)
pyplot.mostrar()

producción

Característica: 0Puntaje: 0.00000
Característica: 1Puntaje: 0.00000
Característica: 2Puntaje: 51.76768
Característica: 3Puntaje: 0.00000
Característica: 4Puntaje: 0.00000
Característica: 5Puntaje: 0.00000
Característica: 6Puntaje: 77.69109
Característica: 7Puntaje: 0.00000
Característica: 8Puntaje: 41.53725
Característica: 9Puntaje: 0.00000
Característica: 10Puntaje: 14.19662
Característica: 11Puntaje: 80.91086
Característica: 12Puntaje: –0.00000
Característica: 13Puntaje: –0.00000
Característica: 14Puntaje: –0.00000

Conclusión

Este artículo ha explorado muchos conceptos, razones y remedios relacionados con el movimiento de registros. El cambio de distribuciones de datos de entrenamiento a datos de prueba se denomina cambio de conjunto de datos. Diferentes condiciones de entrenamiento y prueba pueden cambiar la covarianza entre las variables independientes. Después de estimar la importancia de las funciones, podemos usar la eliminación de funciones para eliminar el cambio de registro.

Publicaciones relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada.

Botón volver arriba