




**Título del puesto: Ingeniero Senior de Confiabilidad del Sitio (SRE)** Experiencia: 5\+ años Ubicación: México/ALC Tipo de contratación: Tiempo completo/contractual, completamente remoto Descripción del puesto: Estamos buscando un Ingeniero de Confiabilidad del Sitio (SRE) experimentado para unirse a nuestro equipo offshore. En este rol, será responsable de garantizar la confiabilidad, el rendimiento y la escalabilidad de nuestros sistemas críticos. Usted desarrollará automatización, creará soluciones de monitoreo, liderará la respuesta a incidentes y trabajará estrechamente con los equipos de ingeniería para implementar infraestructura como código, CI/CD y herramientas nativas de la nube. Responsabilidades del puesto: * Mantener la confiabilidad, disponibilidad y rendimiento de los sistemas críticos * Desarrollar y mantener scripts y herramientas de automatización para agilizar las operaciones * Desarrollar y mantener paneles de monitoreo y alertas * Liderar la respuesta a incidentes, realizar análisis post mortem e implementar medidas preventivas * Optimizar el rendimiento y la escalabilidad del sistema * Implementar y mantener las mejores prácticas de seguridad * Crear y mantener documentación completa de sistemas y procesos * Participar en turnos de guardia para soporte 24/7 de sistemas críticos Requisitos obligatorios: * Kubernetes (experiencia práctica) – gestionar e implementar cargas de trabajo * Plataforma en la nube AWS – comprensión profunda y experiencia en producción * Infraestructura como Código (IaC) – uso de herramientas como Terraform (o CloudFormation/Ansible) * Programación/Scripting – Dominio de Python o Go * Monitoreo y alertas – Experiencia con Prometheus, Grafana * Pipelines CI/CD – Jenkins, GitLab CI o similares * Gestión de incidentes – Experiencia demostrada en responder y analizar interrupciones * Sistemas Linux y redes – Sólidos conocimientos fundamentales Ventajas adicionales: * ArgoCD, Linkerd, Karpenter u otras herramientas relacionadas con Kubernetes * Herramientas de registro – Loki, ELK Stack * Mejores prácticas de seguridad – Conocimientos sobre seguridad en la nube y en contenedores * Liderazgo/Mentoría – Experiencia guiando a ingenieros juniors * Redacción de informes post mortem y RCA – Capacidad para documentar incidentes y aprendizajes * Experiencia en sistemas distribuidos o arquitecturas de alta disponibilidad Proceso de reclutamiento: * Prueba de selección en línea basada en IA * Tarea asignada * 2 entrevistas con el cliente * Entrevista con el CEO * Oferta: Los candidatos seleccionados recibirán una oferta para unirse al equipo. Habilidades blandas * Excelentes habilidades verbales y escritas en inglés \- Obligatorio * Gran capacidad para resolver problemas con mentalidad orientada al cliente * Responsabilidad – Asumir la propiedad de la confiabilidad y resultados de incidentes. * Demostrada capacidad para operar de forma independiente en entornos multitarea y bajo presión * Pasión por apoyar y ayudar a los demás


