La tetera, la cuchara, el sartén y la cocina de los datos de Pentaho
Una de las cuestiones que puede hacer que tus análisis no funcionen de la forma adecuada, es tener datos desordenados, sucios e incompletos. Sabemos que su limpieza es algo tedioso y muchas veces algo complicado cuando no se sabe por dónde empezar. Pero hoy en día ya existen softwares que contienen funciones integradas que pueden facilitarte esta tarea. Tal es el ejemplo de Pentaho y Kettle.
¿Para qué sirve?
Dentro del proceso de migración, integración, explotación, limpieza, análisis y perfilado de datos existen distintas tareas. Como importarlos desde distintos orígenes, transformarlos y generar una salida a la fuente que necesitemos.
Para estas tareas existe Kettle/Pentaho, un software que puede ser muy útil en proyectos de BI. Y que se encuentra dentro del paquete Pentaho Data Integration, de gran potencial para la realización de procesos ETL. Vamos a conocer un poco más sobre esta increíble herramienta.
Spoon, pan, kitchen
Kettle no está solo para solucionar todo el proceso por el que tienes que someter a tus datos, ¡de hecho tenemos una cocina completa!
Primero contamos con el entorno gráfico llamado Spoon. Que está diseñado para simplificar las tareas de generación de ETLs. En él podemos diseñar nuestras trabajos y transformaciones metiendo los pasos necesarios, dependiendo de cómo queremos procesar los datos.
Por otro lado, tenemos Pan. Un motor de transformación de datos que realiza funciones tales como lectura, manipulación y escritura de datos hacia y desde varias fuentes de datos.
Y por último agregamos Kitchen, un programa que ejecuta los trabajos diseñados por Spoon en XML o en un catálogo de datos.
Trabajos y transformaciones
Los Trabajos y Transformaciones son archivos que podemos almacenar como locales o en un catálogo de Kettle. El cual puede permanecer en una base de datos relacional y se ejecutan con las herramientas de Pan y Kitchen. Una transformación representa una tarea ETL y es una colección de pasos con una operación en particular. Éstos pasos se conectan entre sí y a través de saltos de manera simultánea o asincrónica.
Los Trabajos normalmente se planifican en lotes para ejecutarlos automáticamente en intervalos regulares. Pan y Kitchen pueden leer los datos para ejecutar los pasos que se describen en la Transformación o ejecutar el Trabajo. Los trabajos además se componen de una o más transformaciones que serán ejecutadas secuencialmente. Y la ejecución de cada entrada de trabajo representan una salida de estatus que es analizada para distintas acciones.
Para utilizar Kettle no hace falta realizar ninguna instalación. Simplemente hay que obtener los archivos que se requiere para la ejecución, y que solo ocupan alrededor de 1GB.
Como podrás darte cuenta, es relativamente fácil realizar operaciones complicadas usando los bloques que Kettle pone a tu disposición. E incluso es posible integrar archivos externos para mayor personalización. Si necesitas hacer un proceso ETL, ¡te lo recomendamos!
¿Quieres conocer más sobre cómo explotar los datos de tu organización? ¡Da clic aquí!