




Resumen: Buscamos un experimentado Ingeniero Líder de Datos para diseñar, desarrollar y gestionar robustas tuberías ETL y arquitecturas de data lake en AWS, integrando diversas fuentes de datos empresariales. Aspectos destacados: 1. Dirigir proyectos de datos a gran escala en un entorno dinámico 2. Experiencia especializada en PySpark, AWS y creación de tuberías ETL 3. Integrar datos de SAP, SQL, OSI PI e Intelex en AWS Buscamos un experimentado **Ingeniero Líder de Datos** con conocimientos avanzados en PySpark y experiencia práctica en la construcción de tuberías ETL, arquitecturas de data lake e integración de flujos de datos en AWS. Usted gestionará tanto datos estructurados como no estructurados, ingiriendo información desde diversas fuentes locales y empresariales, como SAP, Intelex, SQL y OSI PI, hacia AWS. Este puesto ofrece la oportunidad de trabajar en proyectos de datos a gran escala y colaborar con equipos diversos en un entorno dinámico. **Responsabilidades** * Crear, perfeccionar y gestionar tuberías ETL mediante PySpark y trabajos de AWS Glue para procesar grandes conjuntos de datos estructurados y no estructurados * Coordinar flujos de trabajo de datos con Apache Airflow, garantizando una programación confiable, gestión de dependencias y manejo eficaz de errores * Desarrollar y mantener flujos de datos desde sistemas locales y empresariales hacia entornos de data lake en AWS * Integrar fuentes empresariales como SAP (para datos ERP y operativos), Intelex (para datos ambientales, de salud, seguridad y calidad), bases de datos SQL (para datos relacionales) y OSI PI (para datos industriales en tiempo real y datos de historiadores de procesos) * Construir y supervisar interacciones mediante API para recuperar datos desde servicios locales hacia AWS * Gestionar la extracción, transformación y carga de datos en múltiples formatos y protocolos * Colaborar en el diseño y mantenimiento de arquitecturas de data lake en AWS mediante Amazon S3, AWS Glue y Lake Formation * Asegurar que los datos estén adecuadamente catalogados, particionados y optimizados para análisis e informes * Aplicar controles de calidad de datos, validaciones y seguimiento de procedencia en todas las tuberías **Requisitos** * Al menos 5 años de experiencia en puestos de ingeniería de datos * Un año mínimo de experiencia liderando y gestionando equipos de desarrollo * Alto nivel de competencia en Python y PySpark para procesamiento de datos y creación de tuberías * Sólida base en procesos ETL para integración de datos * Experiencia coordinando flujos de trabajo con Apache Airflow * Éxito demostrado en la construcción de tuberías de datos de producción en AWS * Experiencia práctica con trabajos de AWS Glue para operaciones ETL * Conocimiento de Amazon S3, metodologías de data lake y prácticas de catalogación de datos * Experiencia con herramientas nativas de AWS para monitoreo y operaciones * Capacidad comprobada para integrar sistemas empresariales mediante API, JDBC o conectores nativos, incluidos SAP, Intelex, bases de datos SQL y OSI PI * Capacidad para trabajar con formatos de datos estructurados y no estructurados * Excelentes habilidades en documentación, comunicación y colaboración * Dominio del inglés a nivel B2+ o superior, tanto escrito como hablado **Deseable** * Experiencia en entornos de datos energéticos, del petróleo y el gas o industriales * Conocimiento de flujos de datos y terminología relacionados con perforación y terminación


