Las empresas en la actuales están tomando conciencia del enorme valor que tiene el dato y su propio impacto en las decisiones de negocio. Efectivamente, antes de poder abordar cualquier análisis, ya sea avanzado o no, el primer paso que debemos afrontar es, ¿Dónde guardo el dato? Es obvio que los datos operacionales están en los sistemas transaccionales y se suelen explotar a través de las técnicas de business intelligence en los Data Mart y/o Datawarehouse. La tecnología principal está basada en bases de datos relacionales y los elementos analíticos convencionales. En este punto, el volumen de información que se genera crece de manera desorbitada y, en muchos casos, no está en forma estructurada. Logs, datos de redes sociales Iot y la propia telemetría que se va generando, plantean dificultades en el contexto de la base de datos relaciones. Por ese motivo han surgido nuevas tecnologías de almacenamiento a un coste razonable y con escalabilidad completa dentro de los proveedores de Cloud.

De alguna forma, podemos asemejar un dato estructurado con una estantería de biblioteca donde se colocan los libros con unas determinadas reglas de manera ordenada. Un Data lake, sería mas parecido a un trastero donde los datos entran y las restricciones de las bases de datos relacionales desaparecerán. En este sentido, se pierden constrains, control de tipos de datos y normalmente son datos que no suelen estar gobernados. Además, los datos no deben almacenarse con estructura fija y, por tanto, simplifica el proceso de ETL. Sin embargo, los procesos analíticos pueden arrojar resultado de gran valor y por tanto dichos datos, deben incluirse en el catálogo de datos. Hay que destacar que otra de las ventajas del datalake es lo bien integrado que están con los entornos data analytics, y también con los sistemas de macroporcesamiento de la información o big data. El lago es un elemento de gran relevancia en arquitecturas lambda y Kappa como comentaré en entradas posteriores.
Las principales ventajas son:
- Almacenamiento ilimitado.
- Soporta dato estructurado y no estructurado
- Permite gran flexibilidad.
- Integra con herramientas de advanced analytics con Jupyter Notebook
- Soporta almacenamiento serializados y preparados (avro, orc, parquet) para la realización de Map Reduce de los clusters de Spark y Hadoop.
Un datalake no reemplaza a los sistemas informacionales analíticos convencionales. Los complementa e incrementa las posibilidades analíticas de las compañías que lo adoptan y, por tanto, pude dar respuesta a las necesidades analíticas más comprometidas desde el punto de vista del volumen de datos y de la falta de estructura de estos. Por ese motivo considero que los lagos de datos son una perfecta solución para complementar y potenciar los pocesos analíticos de la compañía que facilitan la toma de decisiones.
