Categorías
···
Entrar / Registro

Data Engineer (AWS Data Lake + Analytics + BI + CI/CD)

Indeed
Tiempo completo
Presencial
Sin requisito de experiencia
Sin requisito de título
Isabel La Católica 5, Centro Histórico de la Cdad. de México, Centro, Cuauhtémoc, 06000 Ciudad de México, CDMX, Mexico
Favoritos
Compartir

Descripción

Resumen del Puesto: En Itera Process buscamos un Data Engineer para construir y mantener pipelines de datos, transformar, modelar y analizar datos, habilitar BI y asegurar la calidad de los datos. Puntos Destacados: 1. Construir y mantener pipelines de ingesta y transformación de datos. 2. Diseñar y operar Data Lake en S3 y desarrollar ETL/ELT con AWS Glue. 3. Preparar datasets para BI y asegurar calidad de datos. **Descripción:** ---------------- En Itera Process estamos en búsqueda de un **Data Engineer** que quiera ser parte del equipo. * Ingesta de datos y Data Lake Construir pipelines de ingesta desde APIs SaaS (ERP, CRM, FinTech, HR). Implementar cargas históricas e ingestas incrementales (delta loads) con control de estado y reintentos. Procesar y normalizar datos provenientes de Excel y archivos manuales. Diseñar y operar el Data Lake en S3 (zonas raw/bronze y curated/silver) siguiendo estándares de particionado, naming y gobierno. * Transformación, modelado y analítica Desarrollar transformaciones ETL/ELT con AWS Glue (PySpark/Python). Construir datasets analíticos y Data Marts (zona Gold) orientados a reporteo financiero y operativo. Crear y mantener tablas y metadatos en Glue Data Catalog. Desarrollar vistas analíticas en Athena (SQL) optimizadas para consumo BI. Optimizar performance y costos mediante: uso de Parquet particiones eficientes compresión manejo de small files CTAS y materializaciones cuando aplique. * Habilitación de BI y consumo de datos Preparar datasets listos para consumo en QuickSight y/o Power BI. Definir dimensiones conformadas, métricas y KPIs lo más upstream posible. Diseñar estrategias de refresco de datos (full vs incremental). Soportar la implementación conceptual o técnica de Row Level Security (RLS). Asegurar una capa de consumo rápida y estable para analistas y negocio. * Data Quality, operación y entrega Implementar validaciones automáticas de calidad de datos (conteos, nulos, duplicados, freshness). Reconciliar KPIs y cifras con usuarios de negocio (Key Users). Instrumentar logs y métricas en CloudWatch para monitoreo y troubleshooting. Documentar flujos, datasets, diccionarios de datos y definiciones de KPIs. * CI/CD y automatización Construir y mantener pipelines CI/CD para: Lambdas de ingesta Glue Jobs scripts y definiciones de infraestructura Versionar código en Git usando buenas prácticas (PRs, code reviews, branching). Implementar pruebas unitarias e integración para pipelines de datos. Gestionar entornos dev / stage / prod con promoción controlada de cambios. * Esquema híbrido en la CDMX. **Requisitos:** --------------- Software requerido Sistema operativo: macOS Linux (Ubuntu / Amazon Linux) Windows (con WSL recomendado) * Lenguajes de programación: Python SQL Plataforma Cloud Amazon Web Services (AWS) * Servicios principales: Amazon S3 AWS Glue (PySpark / Python) AWS Lambda Amazon Athena AWS Glue Data Catalog Amazon CloudWatch AWS IAM AWS KMS * Servicios deseables: AWS Step Functions Amazon EventBridge Amazon SQS Amazon SNS AWS Lake Formation Data Engineering y Analítica Apache Spark (vía AWS Glue) * Formatos analíticos: Parquet Compresión columnar (Snappy, Gzip) Business Intelligence Amazon QuickSight Power BI Desarrollo, CI/CD y DevOps Git CI/CD Pipelines (GitHub Actions, GitLab CI, Bitbucket Pipelines o equivalente) Infrastructure as Code (Terraform, AWS CloudFormation o AWS CDK) Docker (testing local y empaquetado) Testing y calidad de código Frameworks de testing en Python (pytest o equivalente) Linters y formateadores (flake8, black, mypy o equivalente) * Herramientas de soporte: Microsoft Excel (reconciliación y validación con negocio) Herramientas de documentación técnica (Markdown, Confluence, Notion o similar) 3\. Metodologías requeridas Ingeniería de datos * Diseño de Data Lakes por capas: Raw / Bronze Curated / Silver Gold / Analytics ETL / ELT Ingesta incremental (delta loads, checkpoints) Modelado analítico y dimensional Optimización de performance y costos Data Quality by Design Manejo de small files Versionamiento de datasets

Fuentea:  indeed Ver publicación original
Juan García
Indeed · HR

Compañía

Indeed
Juan García
Indeed · HR

Empleos similares

Cookie
Configuración de cookies
Nuestras aplicaciones
Download
Descargar en
APP Store
Download
Consíguelo en
Google Play
© 2025 Servanan International Pte. Ltd.