Machine Learning project steps

  1. Data Discovery. Esta fase es fundamentes y no se le da la importancia que requieren en muchos proyectos de Machine learning. La observación de la calidad del dato es un fantástico punto de inicio. Viaulaizar un perfilado puede ser muy relevante en etapas posteriores y, por tanto, de esta fase deben destacarse los registros a modificar en el siguiente proceso.
  2. Data preparation: Esta etapa normalmente representa el 70 % del tiempo en proyectos de este tipo. Es importante remarcar que esta etapa es crítica e impacta al resto de proceso de análisis. E definitiva debemos enfocarnos en manipular nulos, normalizar las variables categóricas y prepara el data set sea modelado con la menos intervención posible durante la etapa de Modelling.
    1. NULL management : Es innegable que esta problemática puede ser abordada desde difierentes puntos de vistas. La aproximación más simplificada invia a eliminar los registros que tengan nulos en etiquetas y en atributos. Este hecho nos hace perder información y, por tanto, debe considerarse en especial en los que el volumen de información sea limitado. Otra escuela aboga por inferir el valor del campo en base a los valores medios o reemplazando por 0. Si el caso anterior se planteaba la perdida de información ahora estamos alterando los valores de los predictores y, por este motivo, afectamos al modelo. Esta es una de las soluciones más utilizadas.
    2. Category values manipulation: Un punto importante en los problemas de regresión, clasificación y Deep learing (Keras por ejemplo) debemos entrenar los modelo con campos enteros o numéricos. Por ello, en la fase de exploración debemos recogerlos para codificar los loiterales que podamos encontrar, siempre y cuando, los valores sean limitados. En los casos de texto libre es posible que la única solución fuer el suprimir dicho campo.
      1. One hot encoding: Este campo pivota la información de los literales categóricos. Como se puede comprobar, si el número de valores es muy elevado puede disparar el número de campos del dataframe y, por tanto, es un riesgo a tener en cuenta.
      2. Codificación: El cambio más natural consiste en asignar un valor entero a cada una de las categorías. Este es el método recomendado cuando el número de posibles valores fuera muy elevado.
    3. Traint/Test Split Los modelos de ML suelen tener el riesgo de ovefitting. Un método interesante para evitarlo, es reservar un porcentaje de registros para entrenar el modelo y probarlo con el conjunto de test. Si el accuraccy de train y test es similar difícilmente vayamos a experimentar overfitting. Este paso, por tanto, es de vital importancia.
    4. ML Modeling: Según la problemática objetivo y dependiendo de lo que queramos predecir, se selecciona el algoritmo a aplicar. Normalmente se crear el modelo y se aplica contra el conjunto de datos de enteramiento. Una vez aplicado y evaludado es posible predecir las etiquetas de cualquier elemento de datos de entrada.
    5. Hiperparametrización: na vez elegido el algoritmo es imperante buscar la combinación de parámetros que maximice el accuracy y minimice el error. Por tanto, se suele programas un grid de parámetros y se elige la combinación óptima.
    6. Cross Validation: En este caso, una vez entrenado el modelo de machine Learning, se crean diferentes subconjuntos de datos completamente etiquetados. Se debe verificar que el acurracy de los conjuntos son similares entre si y con el valor del training. Una vez validado, el modelo esta listo para ser validado.
    7. Evaluation: Validación de modelo completo.
    8. Go Live: Puesta en producción
Machine Learning project steps

Publicado por rapsusk

Condensed Matter Physics, Master's and PhD Programs in Materials Science, Addicted to Sports...

Deja un comentario

Diseña un sitio como este con WordPress.com
Comenzar