




Resumen: Buscamos un Ingeniero de Confiabilidad de Sitios (SRE) experimentado para apoyar, optimizar y mejorar aplicaciones a gran escala y críticas para la misión, garantizando la confiabilidad, escalabilidad y rendimiento del sistema. Aspectos destacados: 1. Apoyar y optimizar aplicaciones a gran escala y críticas para la misión 2. Colaborar con equipos diversos para garantizar la confiabilidad del sistema 3. Centrarse en la confiabilidad, la automatización y la mejora continua Resumen del puesto Buscamos un **Ingeniero de Confiabilidad de Sitios (SRE)** experimentado para apoyar, optimizar y mejorar aplicaciones a gran escala y críticas para la misión. El candidato ideal posee sólidos conocimientos técnicos, excelentes habilidades de resolución de problemas y experiencia en el mantenimiento de sistemas distribuidos complejos en entornos productivos. En este puesto, colaborará con los equipos de desarrollo, DevOps, infraestructura y redes para garantizar la **confiabilidad, escalabilidad y rendimiento del sistema**. Principales responsabilidades * Brindar soporte en producción para aplicaciones complejas basadas en **Java**, asegurando su estabilidad, rendimiento y capacidad de recuperación * Gestionar y dar soporte a aplicaciones que se ejecutan en entornos de **AWS, PCF, Kubernetes y contenerizados** * Mantener y optimizar sistemas construidos sobre **Kafka, PostgreSQL y otros componentes distribuidos** * Crear, configurar y mantener **paneles de monitoreo y alertas** mediante herramientas como Splunk * Realizar **análisis de causa raíz** utilizando registros, trazas de pila, volcados de hilos, volcados de montón y diagnósticos del sistema * Aplicar prácticas de **ITIL/ITSM**, incluidos los procesos de gestión de incidencias y control de cambios * Contribuir a mejoras en **capacidad de recuperación, alta disponibilidad, automatización y rendimiento del sistema** * Colaborar con los equipos de **desarrollo, DevOps, redes e infraestructura** para garantizar la confiabilidad integral del sistema Habilidades técnicas Los candidatos deben tener experiencia con **múltiples tecnologías relacionadas con SRE** y ser intermedios en al menos dos de las siguientes áreas: * Soporte en producción de aplicaciones complejas en **Java** * Plataformas en la nube y entornos PaaS como **AWS, PCF y Kubernetes** * **Administración y solución de problemas de Kafka** * Herramientas de monitoreo y observabilidad como **Splunk**, incluida la creación de paneles y el análisis de registros * Marcos y procesos operativos de **ITIL/ITSM** * Procesos de SDLC y herramientas de **CI/CD / DevOps** * Entornos de computación distribuida como sistemas **UNIX, Windows o mainframe** * **Fundamentos de redes** (capas 1–3) * **Diagnóstico de sistemas y análisis de rendimiento**, incluidos: * Volcados de hilos * Volcados de montón * Volcados TCP * Diagnósticos de CPU y memoria * Experiencia con **balanceadores de carga y firewalls de aplicaciones web (WAF)** * Conocimiento de prácticas de **alta disponibilidad, capacidad de recuperación y continuidad del negocio** * Comprensión de conceptos de **caché y CDN** * Experiencia con **gestión de configuración e Infraestructura como Código** Habilidades blandas * Autodirigido, con capacidad para operar **de forma independiente y proactiva** * Fuertes habilidades de **pensamiento crítico, análisis y resolución de problemas** * Altamente **detallista y estructurado** en su enfoque * Excelentes habilidades de **comunicación y colaboración** ¿Por qué unirse a nosotros? Formará parte de un entorno de ingeniería colaborativo centrado en la **confiabilidad, la automatización y la mejora continua**, apoyando sistemas críticos que impulsan aplicaciones a gran escala. Tipo de puesto: Por tiempo indeterminado Sueldo: $100,000.00 \- $110,000.00 al mes Beneficios: * Seguro de vida * Vales de despensa Lugar de trabajo: remoto híbrido en Ciudad de México


