




Resumen: Como Ingeniero DevOps Fundador, usted será responsable de la fiabilidad de una plataforma distribuida de alto rendimiento, garantizando que siga siendo rápida, disponible y escalable para una base global de clientes. Aspectos destacados: 1. Posición 100 % remota 2. Responsabilidad integral sobre la fiabilidad de la plataforma 3. Transformación de la infraestructura en un modelo completamente definido mediante código: Infrastructure as Code **Acerca de Command\|Link** Command\|Link es una plataforma global SaaS que ofrece servicios de red, voz y soluciones de seguridad informática, ayudando a las empresas a consolidar su infraestructura central en un único proveedor y añadiendo una plataforma propietaria de visión unificada (single pane of glass). Command\|Link ha revolucionado el sector TI al abordar los problemas creados por nuestros competidores. En reconocimiento a nuestra innovación sin precedentes y dedicación, Command\|Link fue galardonada como Producto SD\-WAN del Año, Destacado Visionario en ITSM, Producto UCaaS del Año, Producto NaaS del Año, Proveedor del Año y Socio Estratégico de Crecimiento de AT\&T. Command\|Link ha desarrollado la única plataforma TI diseñada para escalar que resuelve la dispersión excesiva de proveedores ISP y los dolores de cabeza asociados a TI. Facilitamos a nuestros clientes hacer más, maximizar el tiempo de actividad y mejorar los resultados financieros. ¡Conozca más sobre nosotros aquí! **Esta es una posición 100 % remota** **Acerca de su nuevo puesto:** Como nuestro Ingeniero DevOps Fundador, usted será responsable de la fiabilidad de una plataforma distribuida de alto rendimiento que procesa telemetría de red, datos de voz y seguridad para una base global de clientes. Su mandato: mantener la plataforma rápida, disponible y escalable a medida que CommandLink crece —permitiendo despliegues rápidos e iterativos sin sacrificar el tiempo de actividad. Trabajará directamente con máquinas virtuales, firewalls, clústeres de Kubernetes, pipelines de Kafka y Flink, OpenSearch e infraestructura de Azure —diseñando sistemas que fallen con elegancia y se recuperen automáticamente, no solo monitoreándolos. Aplicará un sólido criterio técnico en decisiones que afectan directamente el tiempo de actividad de los clientes, la latencia de los datos y nuestra capacidad para escalar nuevas líneas de producto sin tener que rehacer la arquitectura desde cero. Colaborando estrechamente con los líderes de Ingeniería y Producto, integrará la fiabilidad en nuestro proceso de construcción. Esto implica liderar la definición de SLO, la respuesta ante incidencias y las revisiones posteriores a fallos (postmortems), así como construir la automatización que haga sostenible a largo plazo el servicio de guardia (on\-call). Asimismo, liderará una iniciativa genuina desde cero: transformar nuestra infraestructura en un modelo completamente definido mediante código —aportando consistencia, repetibilidad y rigor ingenieril a cómo aprovisionamos, gestionamos y evolucionamos la plataforma. **Principales responsabilidades:** * Responsabilidad integral sobre la fiabilidad de la plataforma: definir y aplicar SLO/SLI, diseñar estrategias de alertas, liderar la respuesta ante incidencias y conducir revisiones posteriores a fallos sin asignación de culpas * Operaciones de clústeres de Kubernetes: gestión de clústeres HA multi\-nodo y en la nube en producción, actualizaciones progresivas, cuotas de recursos, escalado automático, políticas de red y presupuestos de interrupción de pods * Infraestructura de datos distribuidos: operación y escalado de clústeres Kafka, trabajos de streaming Flink y clústeres OpenSearch bajo cargas de trabajo sostenidas de alto rendimiento, incluyendo redistribución, gestión de particiones, políticas de ciclo de vida de índices y ajuste de shards * Plataforma de flujos de trabajo Temporal: mantenimiento y escalado de despliegues del servidor Temporal; colaboración con equipos de ingeniería para diseñar flujos de trabajo duraderos y capaces de manejar presión inversa (backpressure) * Infraestructura Azure/AWS/GCP: gestión y optimización de entornos Azure/GCP/AWS, incluyendo K8S, redes, monitorización, almacenes de secretos (Vaults) e IAM; contribución a la base de código IaC (Terraform o Bicep) * Pipelines CI/CD y despliegue: mejora de los pipelines de compilación, liberación y despliegue para permitir entregas seguras, rápidas y automatizadas entre entornos * Observabilidad: construcción y mantenimiento de una pila integral de observabilidad —métricas, registros, trazas y paneles— que brinde señales accionables a los ingenieros, no ruido * Seguridad y cumplimiento: colaboración con el equipo de seguridad para endurecer la infraestructura, aplicar políticas de mínimo privilegio y apoyar los requisitos de cumplimiento * Planificación de capacidad: modelado proactivo del crecimiento, identificación anticipada de cuellos de botella antes de que se conviertan en incidencias y liderazgo de iniciativas de escalado para componentes críticos * Asunción de responsabilidades y proyectos adicionales según sea necesario para apoyar el éxito del equipo y la organización. **Qué necesitará para tener éxito:** **Imprescindible:** * 6 o más años en roles de Ingeniería de Confiabilidad del Sitio (SRE), DevOps o Ingeniería de Plataforma en entornos productivos * Experiencia profunda y práctica con Kubernetes: administración de clústeres, configuraciones HA, redes (CNI, ingress, service mesh) y almacenamiento, no solo despliegue de aplicaciones * Experiencia comprobada operando Apache Kafka a gran escala: gestión de temas, ajuste de grupos de consumidores, operaciones de brokers y monitorización de retraso (lag) * Experiencia con Apache Flink u otros frameworks de procesamiento de flujos en producción * Operaciones de clústeres OpenSearch / Elasticsearch: gestión de índices, estrategias de escalado, ajuste de rendimiento y gestión de instantáneas (snapshots) * Experiencia experta en plataformas cloud Azure/AWS/GCP: AKS, redes virtuales, identidades administradas, monitorización y gestión de costos * Comprensión sólida de la teoría de sistemas distribuidos: teorema CAP, protocolos de consenso, modos de fallo, presión inversa (backpressure) y circuit breaking * Mentalidad Infrastructure as Code —Terraform, Helm o equivalente * Motor de flujos de trabajo Temporal: despliegue, operación y escalado (o experiencia sólida con una plataforma equivalente de ejecución duradera, como Cadence o Conductor) * Fuertes habilidades de scripting y automatización (Bash, PHP, Python o Go) * Experiencia diseñando y operando arquitecturas de alta disponibilidad en múltiples zonas o regiones de disponibilidad **Deseable:** * Experiencia con Vector (de Datadog) para pipelines de recopilación y enrutamiento de registros y métricas * Datadog para APM, monitorización de infraestructura, gestión de registros o paneles * Experiencia con mallas de servicios (Istio, Linkerd o Cilium) * Conocimiento de prácticas de ingeniería del caos (Chaos Monkey, LitmusChaos o similares) * Contribuciones a herramientas de infraestructura de código abierto * Experiencia trabajando en o con productos SaaS de red/telecomunicaciones * Conocimiento de herramientas de red u observabilidad basadas en eBPF **Por qué le encantará trabajar en Command\|Link** Únase a nosotros en CommandLink, donde tendrá la oportunidad de moldear el futuro de la comunicación empresarial. Valoramos el espíritu innovador y buscamos personas dispuestas a aportar su visión única y experiencia a un equipo que valora las ideas audaces y el pensamiento estratégico. ¿Está listo para marcar la diferencia? * Oportunidades de crecimiento en una empresa de rápido crecimiento * Un entorno que celebra las ideas y la innovación * Su trabajo tendrá un impacto tangible * Licencias flexibles * Eventos divertidos en lugares geniales * Bonificaciones por referencias de empleados para fomentar la incorporación de excelentes nuevos miembros al equipo En CommandLink, nos comprometemos a crear una experiencia de contratación justa, coherente y eficiente. Como parte de nuestro proceso, utilizamos herramientas asistidas por IA para revisar y analizar las solicitudes. Estas herramientas apoyan a nuestro equipo de reclutamiento identificando las cualificaciones y la experiencia que coinciden con los requisitos de cada puesto. Las herramientas de IA se usan únicamente para apoyar el proceso de evaluación —no toman decisiones finales de contratación. Cada solicitud es revisada por un miembro de nuestro equipo de reclutamiento o contratación antes de tomar cualquier decisión.


