Data Lake vs Data Warehouse: ¿Sabes la diferencia?
¡Hola Data Lover!
En las semanas anteriores, hemos estado hablando sobre servicios de Azure, sobre un Data Lake y bueno consideré apropiado este artículo ya que en más de una oportunidad me han preguntado sobre las diferencias entre un Data Lake y un Data Warehouse.
Verás, muchas veces se suele confundir ambos conceptos debido a que técnicamente hablando ambos van a almacenar datos. No obstante, la forma en la cual se almacenan y sobre todo el objetivo de cada una es otra historia.
Para entender el contexto en el que se usan estos términos debemos empezar a hablar sobre los ya conocidos ELT que cambia el enfoque de «dónde hacer la transformación de los datos» ya que en una arquitectura tradicional, por lo general sueles aplicar ETL, donde primero te conectas a tus datos (Extraer), los transformas con alguna herramienta (Transformación) para finalmente guardarlos en una base de datos final (Loading). El ELT parte de esta idea, pero en lugar de primero transformar tus datos te dice «Ey! ¿Por qué mejor no guardas los datos de tus distintas fuentes en un solo lugar de fácil acceso y ya luego los transformas?» Entonces hacemos ese cambio de «TL» por «LT»: Primero cargo y luego transformo.
Ahora, volviendo a lo nuestro nuevamente pregunto ¿Dónde es que guardarás o centralizarás estos datos? (ptss respuesta: En tu Data Lake). ¡Ajá! Como te conté recientemente, un Data Lake es un repositorio centralizado que te permitirá almacenar, compartir, gobernar y descubrir datos en su formato nativo. Es decir, que tus archivos aún no han pasado por una etapa de transformación.
Entonces, hasta este punto creo que ya hemos aclarado qué es y cuál es el objetivo de un Data Lake. Ahora, ¿qué es entonces un Data Warehouse? Para empezar, este es uno de los componentes más importantes de una arquitectura de datos ya que es aquí donde vamos a integrar los datos ya procesados y depurados de toda la organización, dándonos de esta manera una visión global, común e integrada de lo que está sucediendo. Asimismo, tendrá un alcance histórico por lo que el volumen de este repositorio llega a ser muy grande. Y, ¿En qué momento llevamos los datos a este repositorio? Pues bien, una vez que ya tengas tus datos almacenados en el data lake y después de usar alguna herramienta para el proceso de transformación podrás almacenar estos datos ya tratados, depurados y modelados en un data warehouse.
Entonces, ya que tenemos claro estos conceptos repasemos algunas diferencias:
- Un data lake «no discrimina» datos a diferencia de un data warehouse, donde tenemos que decidir qué datos realmente nos aportarán valor en el negocio. ¡Ojo! solo porque es posible guardar cualquier tipo de archivo en tu data lake no significa que tengas que guardar archivos que no usarás jamás.
- Un data lake almacena datos en su forma original, independientemente de su tipo, su estructura, formato o procedencia. En cambio, un data warehouse almacena datos estructurados y previamente procesados.
- Un data lake permite la ingesta de datos sin procesar, mientras que para cargar datos en un data warehouse, primero debes modelarlos.
- Un data Lake estaría más orientado a científicos de datos e ingenieros de datos, mientras que un data warehouse está pensado en analistas de datos y analistas de negocio.
Finalmente, ¿Cuál debo elegir? ¿Cuál es la solución más apropiada para mi empresa?
OK, verás a lo largo de este artículo he tratado de hacer énfasis en el «propósito» y la utilidad de cada uno. Por lo que ahora que ya conoces más a fondo ambos conceptos te diré «No tienes que elegir» y básicamente porque una no busca extinguir a la otra ni mucho menos. Sino todo lo contrario, en lugar de competir entre si, ambas se complementan bastante bien en una arquitectura de datos moderna.
Es por ello que, dentro de los servicios que ofrece por ejemplo Microsoft Azure, se ha podido hacer una integración de servicios, aprovechando las ventajas y capacidades de cada una para poder no solo hacer un buen trabajo de analitica avanzada sino también para poder ahorrar costos.
Si deseas tener mayor información y una demostración sobre como se complementan estas tecnologías, nosotros podemos ayudarte. Así que no dudes en escribirnos en info@kaitsconsulting.com.
Hasta la próxima.
¿Buscas soluciones para tus datos? Cuéntanos cómo podemos ayudarte aquí, o conversemos por info@kaitsconsulting.com. Da el primer paso para conectar con tu información de una manera eficaz y te ayudaremos a lograr resultados asombrosos.
Sobre el autor:
Keyla Dolores es Ingeniera de sistemas y consultora BI en Kaits Consulting. Puedes encontrar más contenido suyo aquí.