




Como miembro sénior del equipo de Ingeniería de Confiabilidad del Sitio (SRE), asumirá la responsabilidad de sistemas altamente disponibles, influirá en el diseño de servicios y colaborará con diversos equipos para promover la resiliencia, automatización y excelencia operativa. Este es un puesto práctico de ingeniería donde el conocimiento profundo de infraestructura se combina con experiencia en ingeniería de software, ideal para SREs experimentados dispuestos a liderar. **Lo que hará usted:** * Liderar el diseño, automatización y soporte de los servicios OCI con enfoque en resiliencia, seguridad, escalabilidad y rendimiento. * Asumir la responsabilidad y mejorar las métricas de confiabilidad extremo a extremo (SLO, SLA, KPI) de sus servicios. * Diseñar e implementar arquitecturas y estándares de alta disponibilidad para sistemas distribuidos a gran escala. * Actuar como punto final de escalamiento para problemas operativos complejos, utilizando un profundo conocimiento de topologías de servicios e interdependencias. * Crear y desarrollar herramientas de automatización y orquestación que reduzcan el trabajo manual y eviten la recurrencia de problemas. * Colaborar con equipos de desarrollo para mejorar diseños de servicios, optimizar despliegues e implementar mejores prácticas para eficiencia operativa. * Guiar la toma de decisiones técnicas y capacitar a SREs y desarrolladores juniors en diferentes equipos. * Participar y liderar análisis posteriores a incidentes, análisis de causas raíz y cambios de diseño preventivos. * Contribuir a la planificación de capacidad, predicción de demanda y estrategias de escalabilidad a largo plazo de los servicios. Participar en un horario rotativo de guardia para garantizar la salud y disponibilidad de los servicios en producción. * **Qué estamos buscando:** * Experiencia avanzada en administración de sistemas Linux * Fuertes habilidades de programación en Python (con bibliotecas de automatización) * Dominio avanzado de scripts Bash/Shell * Comprensión profunda de sistemas distribuidos, redes y arquitectura de servicios * Conocimientos sólidos sobre bases de datos y su comportamiento en producción (SQL o NoSQL) * Buen entendimiento de pipelines CI/CD, metodologías ágiles y mejores prácticas DevOps * Experiencia escribiendo y manteniendo pruebas unitarias y software de calidad productiva Demostrada capacidad para liderar esfuerzos multifuncionales y resolver problemas técnicos en entornos en vivo * **Deseable tener:** * Experiencia práctica con herramientas de monitoreo y observabilidad (Grafana, Prometheus, New Relic, etc.) * Conocimiento de Oracle Cloud Infrastructure (OCI) u otras plataformas en la nube (AWS, Azure, GCP) * Experiencia con Infraestructura como Código (Terraform, Ansible) y orquestación de contenedores (Kubernetes)


