
¿En qué consiste cross validation folder? Uno de los métodos más importantes que deben emplearse en la operacionalización del modelo de Machine Learning es Cross-Vallidation folder. Esta técnica permite evaluar como va a ser de robusto mi modelo predictivo, a través de la evaluación de este usando diferentes subconjuntos de datos, que se representan a través de las carpetas que dan nombre a la técnica. Es absolutamente eficaz para evitar fenómenos de sobre ajuste que sobreestiman los accurassy de los datos entrenados, pero cuando se emplea en otro subconjunto de datos el modelo ajustado pierde eficacia. Para solventar la caustica que acabamos de sugerir, se recomienda encarecidamente el suso de este método estadística.
>>> train_predictors <- predictors[train_set,]
>>> require(caret)
>>> classes <- cs_data[, "Status"]
>>> predictors <- cs_data[, -match(c("Status", "Seniority", "Time", "Age", "Expenses", >>> "Income", "Assets", "Debt", "Amount", "Price", "Finrat", "Savings"),
>>>
>>> colnames(cs_data))]
>>> train_set <- createDataPartition(classes, p = 0.8, list = FALSE)
>>> str(train_set)
>>> train_classes <- classes[train_set]
>>> test_predictors <- predictors[-train_set, ]
>>> test_classes <- classes[-train_set]
>>> set.seed(seed)
>>> cv_splits <- createFolds(classes, k = 10, returnTrain = TRUE)
>>> str(cv_splits)
>>> require
>>> set.seed(seed)
>>>
>>> cs_data_train <- cs_data[train_set, ]
>>> cs_data_test <- cs_data[-train_set, ]
>>> glmnet_grid <- expand.grid(alpha = c(0, .1, .2, .4, .6, .8, 1),
lambda = seq(.01, .2, length = 20))
>>> glmnet_ctrl <- trainControl(method = "cv", number = 10)
>>> glmnet_fit <- train(Status ~ ., data
= cs_data_train, >>> method= "glmnet", >>> preProcess= c("center", "scale"),tuneGrid = glmnet_grid, trControl = glmnet_ctrl)
>>> trControl= glmnet_ctrl)
glmnet_fit
En este punto, es importante analizar el resultado y comparar los indicadores estadísticos que te tenemos a lo largos de todos los conjuntos de datos o carpetas.
>>> glmnet
>>> alpha lambda Accuracy Kappa
>>> 0.0 0.01 0.8021427 0.4613907413
>>> 0.0 0.02 0.7998916 0.4520486081
>>> 0.0 0.03 0.7976412 0.4402614685
>>> 0.0 0.04 0.7987633 0.4407093800
>>> 0.0 0.05 0.7982015 0.4355350784
>>> 0.0 0.06 0.7979182 0.4313111542
>>> 0.0 0.07 0.7953893 0.4205306747
>>> 0.0 0.08 0.7931413 0.4105376360
>>> 0.0 0.09 0.7922978 0.4050557210
>>> 0.0 0.10 0.7892072 0.3920192662
Como Podemos ver en este ejemplo los valores de las precisiones son muy similares en cada una de las carpetas por lo que se puede garantizar cuan de robusto es el modelo de datos que estamos implementando.
