




Resumen: Se responsabiliza del ciclo de vida en producción de los servicios de decisión basados en aprendizaje automático, centrándose en su implementación fiable, monitoreo continuo y evolución sencilla, al tiempo que comprende los modos de fallo propios de los sistemas de aprendizaje automático. Aspectos destacados: 1. Responsabilidad integral de una vertical completa de extremo a extremo del producto de aprendizaje automático para préstamos 2. Enfoque en la fiabilidad del sistema de aprendizaje automático y su degradación controlada 3. Rol clave como puente entre los equipos de Ciencia de Datos y de Ingeniería de Plataforma DESCRIPCIÓN **Acerca del equipo** ------------------ El equipo de Decisiones de Originación diseña y opera el sistema impulsado por aprendizaje automático que determina si se aprueban las solicitudes de préstamo y bajo qué condiciones. El equipo es pequeño (4 personas) y cada miembro se responsabiliza de una vertical completa del producto de extremo a extremo —desde las canalizaciones de datos hasta el entrenamiento de modelos y su despliegue en producción— para un subconjunto de productos de préstamos. Por lo tanto, no solo liderará mejoras en su área de especialización, sino que también utilizará regularmente toda la pila como usuario final, obteniendo así una comprensión directa de lo que funciona y lo que no. **El puesto** ------------ Usted se responsabilizará del ciclo de vida en producción de nuestros servicios de decisión basados en aprendizaje automático: su despliegue fiable, su monitoreo continuo y su facilidad de evolución. Este no es un rol tradicional de DevOps ni de SRE. Deberá comprender cómo fallan los sistemas de aprendizaje automático —degradación silenciosa de las predicciones, cambios en la distribución, esquemas superiores rotos que introducen sesgos sutiles en las características— y diseñar salvaguardias que detecten estos problemas antes de que afecten a los clientes. **Principales responsabilidades** ------------------------ ### **Despliegue y gestión de versiones** * Diseñar y mantener la canalización de promoción desde la solicitud de extracción (pull request) hasta entornos de desarrollo, preproducción y producción, incluyendo los criterios y verificaciones automatizadas en cada etapa. * Gestionar servicios contenerizados en Kubernetes: optimización de imágenes, escalado de recursos y despliegues granulares por decisor. * Coordinar los cambios de esquema y API con los equipos que mantienen los servicios superiores e inferiores en .NET / TypeScript. ### **Pruebas y puertas de calidad** * Fortalecer las verificaciones automatizadas en las solicitudes de extracción: visualizaciones del impacto en las decisiones, detección de anomalías en los datos de entrenamiento y en las predicciones retroalimentadas, e integración del código de los servicios superiores/inferiores en revisiones automatizadas asistidas por LLM. * Mejorar las suites de pruebas API de Bruno que se ejecutan contra el entorno de desarrollo tras cada fusión, equilibrando cobertura con costo. * Ampliar el sistema de validación en preproducción que reproduce el tráfico de producción: detectar divergencias en las características calculadas, estadísticas de aprobación y conformidad del esquema entre los modelos de preproducción y producción. ### **Monitoreo y observabilidad** * Diseñar y mantener el monitoreo en producción: paneles de control, alertas y trazado distribuido cruzado de servicios para todo el flujo de incorporación. * Definir y supervisar métricas específicas de aprendizaje automático (tasas de aprobación, distribuciones de puntuaciones, deriva de características), junto con métricas estándar del servicio (latencia, tasas de error, uso de recursos). * Desarrollar herramientas que transformen el registro interno de decisiones en explicaciones legibles para humanos dirigidas a personal operativo y de cumplimiento. ### **Fiabilidad y degradación controlada** * Coordinarse con los proveedores de datos superiores para definir estrategias alternativas cuando los datos externos no estén disponibles (proveedores secundarios, valores predeterminados, decisiones diferidas). * Ampliar el marco de validación de entradas para que las violaciones no críticas del esquema recurran a valores predeterminados seguros (con alertas), mientras que las violaciones críticas bloqueen la decisión, y simular el impacto de dichas alternativas sobre la calidad de la decisión. ### **Diseño e integración de API** * Diseñar e implementar nuevos puntos finales a medida que evolucione el producto (por ejemplo, contrapropuestas, pasos intermedios de incorporación, condiciones modificadas de préstamo). * Integrar nuevas fuentes de datos en la ruta de decisión en tiempo real —incluidas características derivadas del análisis de videollamadas y un almacén de características de baja latencia para clientes recurrentes—, coordinándose con el ingeniero de canalizaciones. ### **Optimización del rendimiento** * Perfilado y optimización del tiempo de inferencia: reemplazo de dependencias pesadas (por ejemplo, LightGBM ONNX), evaluación de bibliotecas más rápidas para procesamiento de datos (por ejemplo, Polars frente a pandas) y descarga de rutas críticas mediante código compilado cuando sea justificado. * Mantener imágenes base de Docker ligeras y tiempos de inicio bajos. ### **Revisión cruzada de código entre equipos** * Revisar solicitudes de extracción en repositorios adyacentes (principalmente C# / .NET y TypeScript / React) que afecten a los servicios inmediatamente superiores o inferiores del sistema de decisión, para detectar problemas de integración tempranamente. **Beneficios** ------------ * Paquete de compensación atractivo, incluyendo opciones sobre acciones. * Entorno dinámico con importantes oportunidades de crecimiento. * 15 días anuales de vacaciones + 7 días personales anuales. * Opción de trabajar de forma remota 3–4 días por semana; o totalmente de forma remota (siempre que pueda acudir a CDMX aproximadamente dos veces al año) * Horario laboral flexible REQUISITOS **Habilidades requeridas** ------------------- * Experiencia en ML en producción — Ha desplegado modelos de aprendizaje automático en producción y ha abordado los modos de fallo específicos de los sistemas aprendidos: degradación silenciosa, desfase entre entrenamiento y servicio, sesgo de selección, interrupciones en las canalizaciones de datos y deriva del esquema. * Ingeniería de software — Conocimientos sólidos de Python (trabajará diariamente con FastAPI, Pydantic y pytest). Capacidad para leer y revisar código en C# y TypeScript. * Contenerización y orquestación — Experiencia práctica con Docker y Kubernetes en un entorno productivo (gestión de recursos, despliegues progresivos, sondas de estado). * Filosofía de pruebas — Piensa en términos de validación en capas (unitarias, de integración, contractuales, comparación con tráfico sombra) y sabe cómo equilibrar cobertura frente a costo y velocidad. * Monitoreo y observabilidad — Experiencia diseñando paneles de control, alertas y trazados distribuidos para servicios donde «el servicio devolvió 200 pero la respuesta fue incorrecta» constituye un modo de fallo real. * Diseño de API — Capacidad para diseñar APIs REST claras y evolutivas y negociar cambios de esquema entre equipos. * Comunicación — Será el principal punto de contacto entre los equipos de Ciencia de Datos y de Ingeniería de Plataforma. Una comunicación escrita y verbal clara y precisa es imprescindible. * Dominio fluido tanto del español como del inglés. La mayoría de nuestras reuniones se llevan a cabo en español, pero el código y la mayor parte de la documentación están escritos en inglés. **Deseables** ------------------- * Experiencia con entornos de ejecución de modelos (ONNX Runtime, TensorFlow Serving, Triton) o técnicas de compilación/optimización de modelos. * Familiaridad con Dagster, DVC o herramientas similares de canalización de ML / orquestación de datos. * Familiaridad con la pila de observabilidad Prometheus / Grafana. * Experiencia en perfilado y optimización de rendimiento en Python (Polars, NumPy, Numba, Cython o extensiones en Rust). * Exposición a servicios financieros, toma de decisiones crediticias o entornos regulados donde la auditabilidad y explicabilidad son fundamentales. * Experiencia construyendo o manteniendo canalizaciones CI/CD con validaciones automatizadas específicas de ML (verificaciones de calidad de datos, umbrales de rendimiento del modelo, análisis del impacto en las decisiones). * Conocimiento del ecosistema Azure (AKS, ACR, Azure DevOps). * Familiaridad con herramientas de prueba de API como Bruno o Postman para pruebas contractuales e integradas. * Familiaridad con Pants u otros sistemas de construcción similares.


