Ingeniero Principal de Confiabilidad del Sitio (SRE)

Salario negociable

Indeed

Tiempo completo

Presencial

Sin requisito de experiencia

Sin requisito de título

C. A las Cumbres 121A, Col Benito Juarez, Residencial Cordilleras, 45020 Zapopan, Jal., Mexico

Favoritos

Parte del contenido se ha traducido automáticamenteVer original

Descripción

Como miembro sénior del equipo de Ingeniería de Confiabilidad del Sitio (SRE), asumirá la responsabilidad de sistemas altamente disponibles, influirá en el diseño de servicios y colaborará con diversos equipos para promover la resiliencia, automatización y excelencia operativa. Este es un puesto práctico de ingeniería donde el conocimiento profundo de infraestructura se combina con experiencia en ingeniería de software, ideal para SREs experimentados dispuestos a liderar. **Lo que hará usted:** * Liderar el diseño, automatización y soporte de los servicios OCI con enfoque en resiliencia, seguridad, escalabilidad y rendimiento. * Asumir la responsabilidad y mejorar las métricas de confiabilidad extremo a extremo (SLO, SLA, KPI) de sus servicios. * Diseñar e implementar arquitecturas y estándares de alta disponibilidad para sistemas distribuidos a gran escala. * Actuar como punto final de escalamiento para problemas operativos complejos, utilizando un profundo conocimiento de topologías de servicios e interdependencias. * Crear y desarrollar herramientas de automatización y orquestación que reduzcan el trabajo manual y eviten la recurrencia de problemas. * Colaborar con equipos de desarrollo para mejorar diseños de servicios, optimizar despliegues e implementar mejores prácticas para eficiencia operativa. * Guiar la toma de decisiones técnicas y capacitar a SREs y desarrolladores juniors en diferentes equipos. * Participar y liderar análisis posteriores a incidentes, análisis de causas raíz y cambios de diseño preventivos. * Contribuir a la planificación de capacidad, predicción de demanda y estrategias de escalabilidad a largo plazo de los servicios. Participar en un horario rotativo de guardia para garantizar la salud y disponibilidad de los servicios en producción. * **Qué estamos buscando:** * Experiencia avanzada en administración de sistemas Linux * Fuertes habilidades de programación en Python (con bibliotecas de automatización) * Dominio avanzado de scripts Bash/Shell * Comprensión profunda de sistemas distribuidos, redes y arquitectura de servicios * Conocimientos sólidos sobre bases de datos y su comportamiento en producción (SQL o NoSQL) * Buen entendimiento de pipelines CI/CD, metodologías ágiles y mejores prácticas DevOps * Experiencia escribiendo y manteniendo pruebas unitarias y software de calidad productiva Demostrada capacidad para liderar esfuerzos multifuncionales y resolver problemas técnicos en entornos en vivo * **Deseable tener:** * Experiencia práctica con herramientas de monitoreo y observabilidad (Grafana, Prometheus, New Relic, etc.) * Conocimiento de Oracle Cloud Infrastructure (OCI) u otras plataformas en la nube (AWS, Azure, GCP) * Experiencia con Infraestructura como Código (Terraform, Ansible) y orquestación de contenedores (Kubernetes)

Fuentea: indeed Ver publicación original