




Resumen: Únase como Ingeniero Senior DevOps para construir y operar plataformas Kubernetes escalables y listas para GPU destinadas a cargas de trabajo de inteligencia artificial e investigación, centrándose en una orquestación fiable y un rendimiento óptimo en un entorno de entrega orientado al cliente. Aspectos destacados: 1. Operar entornos informáticos Kubernetes y Linux para cargas de trabajo de inteligencia artificial e investigación 2. Automatizar flujos de trabajo con Python y scripts de shell UNIX 3. Colaborar en la orquestación, la optimización y la observabilidad Estamos construyendo plataformas Kubernetes escalables y listas para GPU destinadas a cargas de trabajo de inteligencia artificial e investigación, centrándose en una orquestación fiable y un rendimiento óptimo. Como Ingeniero Senior DevOps, usted operará entornos informáticos Kubernetes y Linux, ejecutará la programación de trabajos con Volcano y automatizará flujos de trabajo mediante Python y scripts de shell UNIX en un entorno de entrega orientado al cliente. ¡Postúlese ahora para ayudarnos a ofrecer computación eficiente a escala! **Responsabilidades** * Implementar, configurar y mantener clústeres Kubernetes habilitados para GPU y entornos informáticos Linux independientes para maximizar la eficiencia y el rendimiento de la programación * Implementar y operar la programación de trabajos con Volcano, incluida la configuración de colas, la ejecución de POD, la asignación de GPU y la aplicación de cuotas de espacio de nombres * Administrar Kubernetes de extremo a extremo, cubriendo espacios de nombres, RBAC, cuotas de recursos y enfoques de aislamiento de cargas de trabajo * Crear y mantener automatizaciones en Python y Shell para simplificar la presentación de trabajos, el aprovisionamiento de recursos y los informes del sistema * Colaborar con equipos especializados en orquestación, optimización y observabilidad para mejorar la eficiencia de la programación, la utilización de la capacidad y los flujos de trabajo de los investigadores * Supervisar la salud de la plataforma y la utilización de los recursos, compartiendo datos y comentarios para apoyar las necesidades de optimización e informes * Proponer e impulsar mejoras en la infraestructura, las herramientas y los flujos de trabajo de automatización para mejorar el rendimiento, la escalabilidad y la usabilidad * Garantizar que las operaciones ofrezcan una experiencia fluida y eficiente a los investigadores que trabajan con diversas cargas de trabajo de inteligencia artificial y computacionales **Requisitos** * Mínimo 3 años de experiencia en puestos de DevOps o ingeniería de infraestructura dentro de entornos complejos y de gran escala * Conocimientos expertos en administración de Kubernetes, incluidos espacios de nombres, programación/distribución de POD, PVC, NFS y gestión de cuotas de recursos * Experiencia práctica con el programador Volcano para la ejecución de trabajos GPU, configuración de colas, priorización de cargas de trabajo e integración con Kubernetes * Experiencia demostrable en la operación de entornos de clústeres GPU sobre Kubernetes y en nodos informáticos Linux independientes * Habilidades avanzadas de programación en Python para la automatización de infraestructura, además de competencia en scripting de shell UNIX (por ejemplo, Bash) * Capacidad sólida en administración de sistemas Linux, incluida la solución de problemas, la optimización del rendimiento y la gestión de la configuración * Comprensión sólida de los conceptos de automatización y orquestación de infraestructura, así como de las herramientas de soporte correspondientes * Competencia fluida en inglés (hablado y escrito) para la interacción directa con clientes **Deseable** * Helm para empaquetado y lanzamiento de aplicaciones en Kubernetes * Herramientas de monitorización y observabilidad, especialmente Prometheus, Grafana y Loki * Herramientas de Infraestructura como Código (IaC), como Terraform * Experiencia con Kubernetes multi-nube (Amazon EKS, Google GKE) * Conocimientos de redes de Azure, incluidas VPN, ExpressRoute y seguridad de red * Familiaridad con herramientas de programación asistida por IA (por ejemplo, GitHub Copilot, ChatGPT, Claude) * Experiencia en programación y optimización de recursos híbridos (nube + entornos locales)


