¿Qué es la canalización de datos?

Ene 8, 2021 | BI, Negocios

En definición —Una canalización de datos o data pipeline es una serie de acciones que combinan datos de múltiples fuentes para su análisis o visualización.

En el panorama empresarial actual, tomar decisiones más inteligentes con mayor rapidez es una ventaja competitiva fundamental. Las empresas desean que sus empleados tomen decisiones basadas en datos, pero aprovechar la información oportuna de los datos de una empresa puede parecer un desafío que les causa dolor de cabeza.

El volumen de datos y la cantidad de fuentes de datos crece cada día en las soluciones locales, las aplicaciones SaaS, las bases de datos y otras fuentes externas. ¿Cómo se reúne los datos de todas estas fuentes dispares? Con canalizaciones de datos.

¿Qué son y para qué sirven?

En pocas palabras, una canalización de datos es un conjunto de acciones y tecnologías que enrutan datos sin procesar desde un origen a un destino. Las canalizaciones de datos a veces se denominan conectores de datos.

Las canalizaciones de datos constan de estos componentes: una fuente, un paso de transformación de datos y un destino.

La transformación de datos se puede realizar utilizando herramientas como Fivetran, o se puede construir manualmente utilizando una combinación de tecnologías como Python. Estas herramientas se utilizan principalmente para hacer que los datos de fuentes externas sean relevantes para cada caso de uso empresarial único.

Los destinos son los repositorios en los que se almacenan los datos una vez extraídos, como almacenes de datos o data lakes.

Veamos un ejemplo aplicado. Las canalizaciones de datos hacen posible que los datos fluyan desde aplicaciones y plataformas independientes como Facebook Ads, Google Analytics y Shopify. Si un analista de experiencia del cliente está tratando de dar sentido a estos puntos de datos para comprender la efectividad de un anuncio, necesita una canalización de datos para administrar la transferencia y normalización de datos de estas fuentes dispares a un almacén de datos como Snowflake. O sea que, cada vez que se procesan datos entre dos puntos, se involucra una canalización de datos.

En resumen, las canalizaciones de datos te permiten centralizar datos de distintas fuentes en un solo lugar para el análisis. Puede obtener una vista más sólida de sus clientes, crear cuadros de mando financieros consolidados y más. Las canalizaciones de datos también brindan la ventaja de garantizar una calidad de datos constante, que es fundamental para una inteligencia empresarial confiable. 

Arquitectura de canalización de datos

Muchas empresas están modernizando su infraestructura de datos mediante la adopción de un conjunto de herramientas nativas de la nube llamado pila de datos moderna. Las canalizaciones de datos automatizadas son un componente clave de la pila de datos moderna y permiten a las empresas adoptar nuevas fuentes de datos y mejorar la inteligencia empresarial. 

La pila de datos moderna consta de:

  • Una herramienta de canalización de datos automatizada como Fivetran
  • Un destino de datos en la nube como Snowflake, BigQuery o AWS Redshift
  • Una herramienta de transformación posterior)
  • Un motor de inteligencia empresarial como Tableau

Las canalizaciones de datos permiten la transferencia de datos desde una plataforma de origen a un destino, donde los analistas y científicos de datos pueden consumir los datos y convertirlos en información valiosa para la empresa.

Para entender cómo funciona una canalización de datos, veamos la anatomía de la extracción de datos y su ubicación desde el origen hasta el destino.

Los pasos básicos de la transferencia de datos incluyen:

1: Lectura de una fuente —Las fuentes pueden incluir bases de datos de producción como MySQL, MongoDB y PostgresSQL, y aplicaciones web como Salesforce y MailChimp. Una canalización de datos lee desde el punto final de la API a intervalos programados.

2: Definición de un destino —Los destinos pueden incluir un almacén de datos en la nube —Snowflake, BigQuery o Redshift—, un lago de datos o un motor de tablero / inteligencia empresarial.

3. Transformación de datos —Los profesionales de datos necesitan datos estructurados y accesibles que se puedan interpretar para que tengan sentido para sus socios comerciales. La transformación de datos permite a los profesionales modificar los datos y el formato para que sean relevantes y significativos para su caso de uso empresarial específico.

  • La transformación de datos puede tomar muchas formas, como en:
  • —Constructivo: agregar, copiar o replicar datos
  • —Destructivo: borrar campos, registros o columnas
  • —Estética o limpieza de datos: estandarización de saludos, nombres de calles, etc. 

Las transformaciones hacen que los datos estén bien formados y bien organizados, lo que resulta fácil de interpretar para los humanos y las aplicaciones. Un analista de datos puede usar una herramienta como dbt para estandarizar, ordenar, validar y verificar los datos traídos de la tubería.

¿Construir o comprar?

Hemos establecido cuán cruciales son las canalizaciones de datos para los esfuerzos de análisis de su empresa. ¿Cómo decides si tiene más sentido construir uno in house o comprar un producto de terceros?

Los especialistas de datos son escasos y costosos, increíblemente valiosos para sus organizaciones. En muchas empresas, ellos se encargan de crear y mantener canalizaciones de datos para extraer, transformar y cargar datos. Incluso las herramientas ETL dedicadas requieren equipos de personal de alto valor para mantener y configurar.

Por definición, una herramienta debería «ayudar a realizar una tarea». Sin embargo, la mayoría de las veces, las herramientas clásicas de canalización de datos (ETL) agotan el tiempo y el entusiasmo de los especialistas de datos. En lugar de permitir que los ingenieros de datos prosperen, exigen mantenimiento y atención de una manera similar a las tuberías con fugas (tuberías por las que las empresas invierten dinero) con poco que mostrar a cambio.

Considera el costo de construir tus propios conectores de canalización de datos. El costo varía según la región y la escala salarial, pero puedes hacer algunos cálculos rápidos del tiempo de ingeniería dedicado a construir y mantener conectores y el costo total de propiedad para su organización. El costo monetario será significativo, por no hablar de los costos impuestos por el tiempo de inactividad.

En cambio las canalizaciones de datos adquiridas permiten a los especialistas de datos centrarse en lo que es importante.

¿Te gustaría integrar la canalización de datos a tus procesos de BI? Da clic aquí o contáctanos para asesorarte.