¿Cómo de robusto es mi modelo Machine Learning?: Cross-Validation Folder

¿En qué consiste cross validation folder? Uno de los métodos más importantes que deben emplearse en la operacionalización del modelo de Machine Learning es Cross-Vallidation folder. Esta técnica permite evaluar como va a ser de robusto mi modelo predictivo, a través de la evaluación de este usando diferentes subconjuntos de datos, que se representan a través de las carpetas que dan nombre a la técnica. Es absolutamente eficaz para evitar fenómenos de sobre ajuste que sobreestiman los accurassy de los datos entrenados, pero cuando se emplea en otro subconjunto de datos el modelo ajustado pierde eficacia. Para solventar la caustica que acabamos de sugerir, se recomienda encarecidamente el suso de este método estadística.

>>> train_predictors <- predictors[train_set,]
>>> require(caret)    
>>> classes <-  cs_data[, "Status"]   
>>> predictors <- cs_data[,  -match(c("Status",   "Seniority", "Time", "Age", "Expenses",       >>>    "Income",   "Assets", "Debt", "Amount", "Price",  "Finrat",   "Savings"), 
>>> 
>>> colnames(cs_data))]        
>>> train_set <- createDataPartition(classes,   p = 0.8,  list = FALSE)   
>>> str(train_set)  
>>> train_classes <- classes[train_set]
>>> test_predictors <- predictors[-train_set,
]
>>> test_classes <- classes[-train_set]
>>> set.seed(seed)
>>> cv_splits <- createFolds(classes,
k = 10, returnTrain = TRUE)
>>> str(cv_splits)
>>> require
>>> set.seed(seed)
>>> 
>>> cs_data_train <- cs_data[train_set,
]
>>> cs_data_test <- cs_data[-train_set,
]
>>> glmnet_grid <- expand.grid(alpha =
c(0,  .1,  .2, .4, .6, .8, 1),
                          
lambda = seq(.01, .2, length = 20))
>>> glmnet_ctrl <- trainControl(method
= "cv", number = 10)
>>> glmnet_fit <- train(Status ~ ., data
= cs_data_train, >>>    method= "glmnet", >>>                preProcess= c("center", "scale"),tuneGrid = glmnet_grid,   trControl = glmnet_ctrl) 

>>>   trControl= glmnet_ctrl)
glmnet_fit

En este punto, es importante analizar el resultado y comparar los indicadores estadísticos que te tenemos a lo largos de todos los conjuntos de datos o carpetas.

>>> glmnet 
>>>   alpha 
lambda  Accuracy   Kappa      
>>>   0.0 0.01    0.8021427  0.4613907413
>>>   0.0   0.02    0.7998916  0.4520486081
>>>   0.0   0.03    0.7976412  0.4402614685
>>>   0.0   0.04    0.7987633  0.4407093800
>>>   0.0   0.05    0.7982015  0.4355350784
>>>   0.0   0.06    0.7979182  0.4313111542
>>>   0.0 0.07    0.7953893  0.4205306747
>>>   0.0   0.08    0.7931413  0.4105376360
>>>   0.0   0.09    0.7922978  0.4050557210
>>>   0.0   0.10    0.7892072  0.3920192662

Como Podemos ver en este ejemplo los valores de las precisiones son muy similares en cada una de las carpetas por lo que se puede garantizar cuan de robusto es el modelo de datos que estamos implementando.

Publicado por rapsusk

Condensed Matter Physics, Master's and PhD Programs in Materials Science, Addicted to Sports...

Deja un comentario

Diseña un sitio como este con WordPress.com
Comenzar