fbpx

¿Data Lake o Data Swamp?

¿Data Lake o Data Swamp?

Hoy más que nunca, con el auge de las tecnologías varias empresas ya cuentan con toda una arquitectura moderna que sea capaz de soportar los trabajos relacionados al tratamiento y análisis de datos en general, y en caso aún no tengan una de seguro ya lo están considerando.

Independientemente del punto en el que te encuentres, mi propósito el día de hoy es ayudarte a entender o identificar si tienes o puedes llegar a tener un problema con los casi famosos Data Swamp.

Para entrar en contexto, sucede que en el proceso de integrar y centralizar la información en un data lake, podemos llegar a caer en ese punto en donde terminas admitiendo todos los datos porque «quizá lo puedas necesitar más adelante». Y claro, como un data lake tiene una capacidad de almacenamiento practicamente ilimitada ya que puede almacenar y atender muchos exabytes de datos pues, ¿Qué mejor verdad?

Verás, si usamos este argumento como defensa ya estamos partiendo del punto equivocado, porque si es que aún no tienes un data swamp de seguro estás encaminado a tenerlo, ya que la ausencia de gobernanza de datos, de prioridades sobre que guardar y que no, de metadatos o sin una estrategia de limpieza de datos no resultarán en otra cosa que no sea una carpeta similar a la que tienes en tu computador en la que guardas archivos de cualquier tema, tipo o temporalidad, solo que estará en la nube y tendrá muchos muchos GB si es que no son más y por ende no tendrás control de todo lo que tengas almacenado.

Entonces, ¿Cómo evitamos caer en este gran hoyo negro?

Prioriza los datos que almacenarás

No porque me guste y sea capaz  de comer un litro de helado de menta con chocochips en el desayuno significa que deba hacerlo ¿o si? ¡Wait! me estoy desviando.

El punto es que, como mencionaba líneas arriba, no porque mi data lake tenga capacidad de almacenar muchos exabytes de datos significa que guardaré todo lo que pueda y esté a mi alcance.

Antes de iniciar un proyecto de business intelligence, debo de contar siempre con un plan para el uso de mis datos. Este debe ser nuestro punto de partida, ¿Qué necesito? ¿Para qué lo necesito? ¿Cuánto tiempo lo necesitaré? entre otras preguntas, ya que lo que para mi pueda ser información muy valiosa, al equipo de recursos humanos o marketing puede que no le aporte valor en absoluto. Entonces, debemos de contar con un plan de datos que contemple todos estos escenarios.

Crear un gobierno de datos

Es decir, definir como vamos a tratar nuestros datos, quienes son los que tendrán acceso, por cuanto tiempo estarán vigentes o donde van a residir.

Esto es fundamental, ya que de esta forma nos aseguramos de mantener y cuidar la integridad y la calidad de nuestros datos. De lo contrario, podríamos estar trabajando a ciegas sobre información inconsistente y podríamos tardar años en percatarnos de este problema.

Tener un gobierno sobre nuestros datos nos ayudará a definir roles y responsabilidades sobre los datos. No porque los datos aún no estén tratados significa que no son valiosos, debemos de asegurarnos de que cada persona vea solo lo que le corresponde.

Crea metadatos

Los metadatos son datos sobre tus datos. Es una forma de etiquetar tus datos para saber de donde procede, a que evento de tu empresa está relacionado o que edad tienen tus datos.

Este es un trabajo que muchas veces se suele olvidar o dejar de lado. No obstante, la ausencia de metadatos nos llevan directo a los data swamp, ya que el tener tantos datos almacenados sin estas etiquetas nos puede complicar mucho la busqueda de la información.

La ausencia de metadatos en un data lake es como tener un libro sin un índice. ¿Te imaginas encontrar un dato de esta forma? ¿Difícil verdad?

Define una estrategia de limpieza de datos

Nadie desea tener un data swamp pero si nos descuidamos o no tenemos claro el plan de datos nuestro data lake puede deteriorarse y por tanto convertirse en un data swamp. Es por ello que, desde el principio debemos definir en el plan de datos, como es que vamos a cuidar la calidad de nuestros datos y que acciones debemos de tomar para limpiar nuestros datos regularmente.

Finalmente…

Estos son algunas de las formas de prevenir que nuestro data lake pase a convertirse en un entorno en donde no exista el control ni el orden de lo que se almacena.

Estoy segura de que si somos más conscientes de lo que significa realmente tener un data lake y si vamos de la mano de un plan bien definido y estructurado, iremos por muy buen camino.

En caso necesites ayuda para realizar un análisis sobre tu arqutiectura actual o si necesitas ayuda en tu nuevo proyecto de implementación de una arquitectura moderna de datos, escríbenos a info@kaitsconsulting.com y estaremos gustosos de poder ayudarte a lograr esos resultados asombrosos.

Hasta la próxima.

¿Buscas soluciones para tus datos? Cuéntanos cómo podemos ayudarte aquí, o conversemos por info@kaitsconsulting.com. Da el primer paso para conectar con tu información de una manera eficaz y te ayudaremos a lograr resultados asombrosos.

Sobre el autor:

Keyla Dolores es Ingeniera de sistemas y consultora BI en Kaits Consulting. Puedes encontrar más contenido suyo aquí.

También te puede interesar …

Loading...