




Resumen: Buscamos un Ingeniero Líder de Datos experimentado, con dominio avanzado de PySpark, para construir canalizaciones ETL, arquitecturas de lagos de datos e integrar diversas fuentes de datos en AWS. Aspectos destacados: 1. Liderar proyectos de ingeniería de datos con experiencia en PySpark y AWS 2. Diseñar y mantener arquitecturas de lagos de datos en AWS 3. Integrar datos procedentes de fuentes empresariales como SAP, SQL y OSI PI Buscamos un **Ingeniero Líder de Datos** experimentado con conocimientos avanzados en PySpark y experiencia práctica en la construcción de canalizaciones ETL, arquitecturas de lagos de datos e integración de fuentes de datos en AWS. Usted gestionará tanto datos estructurados como no estructurados, ingiriendo información desde diversas fuentes locales y empresariales, tales como SAP, Intelex, SQL y OSI PI, hacia entornos AWS. Este puesto ofrece la oportunidad de participar en proyectos de datos a gran escala y colaborar con equipos diversos en un entorno dinámico. **Responsabilidades** * Crear, perfeccionar y gestionar canalizaciones ETL mediante PySpark y trabajos de AWS Glue para procesar grandes conjuntos de datos estructurados y no estructurados * Coordinar flujos de trabajo de datos con Apache Airflow, garantizando una programación confiable, gestión de dependencias y manejo eficaz de errores * Desarrollar y mantener fuentes de datos desde sistemas locales y empresariales hacia entornos de lagos de datos en AWS * Integrarse con fuentes empresariales, incluyendo SAP para datos ERP y operativos, Intelex para datos ambientales, de salud, seguridad y calidad, bases de datos SQL para datos relacionales y OSI PI para datos industriales y de historiadores de procesos en tiempo real * Construir y supervisar interacciones mediante API para recuperar datos desde servicios locales hacia AWS * Gestionar la extracción, transformación y carga de datos en múltiples formatos y protocolos * Apoyar en el diseño y mantenimiento de arquitecturas de lagos de datos en AWS mediante Amazon S3, AWS Glue y Lake Formation * Asegurar que los datos estén debidamente catalogados, particionados y optimizados para análisis e informes * Aplicar controles de calidad de datos, validaciones y seguimiento de la procedencia (lineage) en todas las canalizaciones **Requisitos** * Al menos 5 años de experiencia en puestos de ingeniería de datos * Un año mínimo de experiencia liderando y gestionando equipos de desarrollo * Alto nivel de competencia en Python y PySpark para procesamiento de datos y creación de canalizaciones * Sólida base en procesos ETL para integración de datos * Experiencia coordinando flujos de trabajo con Apache Airflow * Demostrada capacidad para construir canalizaciones de datos productivas en AWS * Experiencia práctica con trabajos de AWS Glue para operaciones ETL * Conocimiento de Amazon S3, metodologías de lagos de datos y prácticas de catalogación de datos * Experiencia con herramientas nativas de AWS para monitoreo y operaciones * Capacidad para integrar sistemas empresariales mediante API, JDBC o conectores nativos, incluidos SAP, Intelex, bases de datos SQL y OSI PI * Capacidad para trabajar con formatos de datos estructurados y no estructurados * Excelentes habilidades en documentación, comunicación y colaboración * Dominio del inglés al nivel B2 o superior, tanto escrito como hablado **Deseable** * Experiencia en entornos de datos energéticos, del petróleo y el gas o industriales * Conocimiento de flujos de datos y terminología relacionados con perforación y terminación de pozos


