




Resumen del Puesto: En Itera Process buscamos un Data Engineer para construir y mantener pipelines de datos, transformar, modelar y analizar datos, habilitar BI y asegurar la calidad de los datos. Puntos Destacados: 1. Construir y mantener pipelines de ingesta y transformación de datos. 2. Diseñar y operar Data Lake en S3 y desarrollar ETL/ELT con AWS Glue. 3. Preparar datasets para BI y asegurar calidad de datos. **Descripción:** ---------------- En Itera Process estamos en búsqueda de un **Data Engineer** que quiera ser parte del equipo. * Ingesta de datos y Data Lake Construir pipelines de ingesta desde APIs SaaS (ERP, CRM, FinTech, HR). Implementar cargas históricas e ingestas incrementales (delta loads) con control de estado y reintentos. Procesar y normalizar datos provenientes de Excel y archivos manuales. Diseñar y operar el Data Lake en S3 (zonas raw/bronze y curated/silver) siguiendo estándares de particionado, naming y gobierno. * Transformación, modelado y analítica Desarrollar transformaciones ETL/ELT con AWS Glue (PySpark/Python). Construir datasets analíticos y Data Marts (zona Gold) orientados a reporteo financiero y operativo. Crear y mantener tablas y metadatos en Glue Data Catalog. Desarrollar vistas analíticas en Athena (SQL) optimizadas para consumo BI. Optimizar performance y costos mediante: uso de Parquet particiones eficientes compresión manejo de small files CTAS y materializaciones cuando aplique. * Habilitación de BI y consumo de datos Preparar datasets listos para consumo en QuickSight y/o Power BI. Definir dimensiones conformadas, métricas y KPIs lo más upstream posible. Diseñar estrategias de refresco de datos (full vs incremental). Soportar la implementación conceptual o técnica de Row Level Security (RLS). Asegurar una capa de consumo rápida y estable para analistas y negocio. * Data Quality, operación y entrega Implementar validaciones automáticas de calidad de datos (conteos, nulos, duplicados, freshness). Reconciliar KPIs y cifras con usuarios de negocio (Key Users). Instrumentar logs y métricas en CloudWatch para monitoreo y troubleshooting. Documentar flujos, datasets, diccionarios de datos y definiciones de KPIs. * CI/CD y automatización Construir y mantener pipelines CI/CD para: Lambdas de ingesta Glue Jobs scripts y definiciones de infraestructura Versionar código en Git usando buenas prácticas (PRs, code reviews, branching). Implementar pruebas unitarias e integración para pipelines de datos. Gestionar entornos dev / stage / prod con promoción controlada de cambios. * Esquema híbrido en la CDMX. **Requisitos:** --------------- Software requerido Sistema operativo: macOS Linux (Ubuntu / Amazon Linux) Windows (con WSL recomendado) * Lenguajes de programación: Python SQL Plataforma Cloud Amazon Web Services (AWS) * Servicios principales: Amazon S3 AWS Glue (PySpark / Python) AWS Lambda Amazon Athena AWS Glue Data Catalog Amazon CloudWatch AWS IAM AWS KMS * Servicios deseables: AWS Step Functions Amazon EventBridge Amazon SQS Amazon SNS AWS Lake Formation Data Engineering y Analítica Apache Spark (vía AWS Glue) * Formatos analíticos: Parquet Compresión columnar (Snappy, Gzip) Business Intelligence Amazon QuickSight Power BI Desarrollo, CI/CD y DevOps Git CI/CD Pipelines (GitHub Actions, GitLab CI, Bitbucket Pipelines o equivalente) Infrastructure as Code (Terraform, AWS CloudFormation o AWS CDK) Docker (testing local y empaquetado) Testing y calidad de código Frameworks de testing en Python (pytest o equivalente) Linters y formateadores (flake8, black, mypy o equivalente) * Herramientas de soporte: Microsoft Excel (reconciliación y validación con negocio) Herramientas de documentación técnica (Markdown, Confluence, Notion o similar) 3\. Metodologías requeridas Ingeniería de datos * Diseño de Data Lakes por capas: Raw / Bronze Curated / Silver Gold / Analytics ETL / ELT Ingesta incremental (delta loads, checkpoints) Modelado analítico y dimensional Optimización de performance y costos Data Quality by Design Manejo de small files Versionamiento de datasets


