Ingeniero de Producción de ML — Decisiones de Originación

Indeed

Tiempo completo

Presencial

Sin requisito de experiencia

Sin requisito de título

México, 00000, MX

Favoritos

Parte del contenido se ha traducido automáticamenteVer original

Descripción

Resumen: Se encarga del ciclo de vida en producción de los servicios de decisión basados en ML, centrándose en la implementación confiable, el monitoreo continuo y la facilidad de evolución, al tiempo que comprende y protege contra los fallos de los sistemas de aprendizaje automático. Aspectos destacados: 1. Propiedad integral de segmentos verticales del producto 2. Enfoque en la confiabilidad de los sistemas de aprendizaje automático y su degradación controlada 3. Oportunidad de trabajar con tecnología de pila completa y de vanguardia DESCRIPCIÓN **Acerca del equipo** ------------------ El equipo de Decisiones de Originación diseña y opera el sistema impulsado por aprendizaje automático que decide si aprobar o no las solicitudes de préstamos y bajo qué condiciones. El equipo es pequeño (4 personas) y cada miembro posee un segmento vertical del producto de extremo a extremo —desde las canalizaciones de datos hasta el entrenamiento de modelos y su implementación en producción— para un subconjunto de productos crediticios. Por lo tanto, no solo liderará mejoras en su área de especialización, sino que también utilizará regularmente la pila completa como usuario final, obteniendo así una comprensión directa de lo que funciona y lo que no. **El puesto** ------------ Usted se encargará del ciclo de vida en producción de nuestros servicios de decisión basados en ML: su implementación confiable, su monitoreo continuo y su facilidad de evolución. Este no es un rol tradicional de DevOps ni de SRE. Deberá comprender cómo fallan los sistemas de aprendizaje automático —degradación silenciosa de las predicciones, cambios en la distribución, esquemas ascendentes rotos que sesgan sutilmente las características— y diseñar salvaguardias que detecten estos problemas antes de que afecten a los clientes. **Responsabilidades clave** ------------------------ ### **Implementación y gestión de versiones** * Diseñar y mantener la canalización de promoción desde la solicitud de extracción (pull request) hasta los entornos de desarrollo, preproducción y producción, incluyendo los criterios y las verificaciones automatizadas en cada etapa. * Gestionar servicios contenerizados en Kubernetes: optimización de imágenes, escalado de recursos y despliegues granulares por decisor. * Coordinar los cambios de esquema y API con los equipos que mantienen los servicios ascendentes y descendentes en .NET / TypeScript. ### **Pruebas y puertas de calidad** * Fortalecer las verificaciones automatizadas en las solicitudes de extracción: visualizaciones del impacto de las decisiones, detección de anomalías en los datos de entrenamiento y en las predicciones retroalimentadas, e integración del código de los servicios ascendentes/descendentes en revisiones automatizadas asistidas por LLM. * Mejorar las suites de pruebas API de Bruno que se ejecutan contra el entorno de desarrollo tras cada fusión, equilibrando cobertura con costo. * Ampliar el sistema de validación en preproducción que reproduce el tráfico de producción: detectar divergencias en las características calculadas, en las estadísticas de aprobación y en la conformidad del esquema entre los modelos de preproducción y producción. ### **Monitoreo y observabilidad** * Diseñar y mantener el monitoreo en producción: paneles de control, alertas y trazado distribuido cruzado de servicios para todo el flujo de incorporación. * Definir y supervisar métricas específicas de ML (tasas de aprobación, distribuciones de puntuaciones, deriva de características), junto con métricas estándar del servicio (latencia, tasas de error, uso de recursos). * Desarrollar herramientas que transformen el registro interno de decisiones en explicaciones legibles para humanos destinadas a los responsables operativos y de cumplimiento. ### **Confiabilidad y degradación controlada** * Coordinarse con los proveedores de datos ascendentes para definir estrategias alternativas cuando los datos externos no estén disponibles (proveedores secundarios, valores predeterminados, decisiones diferidas). * Ampliar el marco de validación de entradas para que las violaciones no críticas del esquema recurran a valores predeterminados seguros (con alertas), mientras que las violaciones críticas bloqueen la decisión, y simular el impacto de dichas alternativas sobre la calidad de la decisión. ### **Diseño e integración de API** * Diseñar e implementar nuevos puntos finales a medida que evolucione el producto (por ejemplo, contrapropuestas, pasos intermedios de incorporación, condiciones modificadas del préstamo). * Integrar nuevas fuentes de datos en la ruta de decisión en tiempo real —incluyendo características derivadas del análisis de videollamadas y un almacén de características de baja latencia para clientes recurrentes—, coordinándose con el ingeniero de canalizaciones. ### **Optimización del rendimiento** * Perfilado y optimización del tiempo de inferencia: reemplazar dependencias pesadas (por ejemplo, LightGBM ONNX), evaluar bibliotecas más rápidas para procesamiento de datos (por ejemplo, Polars frente a pandas) y descargar rutas críticas mediante código compilado cuando sea justificado. * Mantener imágenes base de Docker ligeras y tiempos de inicio bajos. ### **Revisión cruzada de código entre equipos** * Revisar solicitudes de extracción en repositorios adyacentes (principalmente C# / .NET y TypeScript / React) que afecten a los servicios inmediatamente ascendentes o descendentes del sistema de decisión, para detectar problemas de integración tempranamente. **Beneficios** ------------ * Paquete de remuneración atractivo, que incluye opciones accionarias. * Entorno dinámico con importantes oportunidades de crecimiento. * 15 días anuales de vacaciones + 7 días personales anuales. * Posibilidad de trabajar de forma remota 3–4 días por semana; o totalmente de forma remota (siempre que pueda acudir a la Ciudad de México aproximadamente dos veces al año). * Horario laboral flexible REQUISITOS **Habilidades requeridas** ------------------- * Experiencia en ML en producción — Ha implementado modelos de ML en producción y ha tratado con modos de fallo específicos de los sistemas aprendidos: degradación silenciosa, desfase entre entrenamiento y servicio, sesgo de selección, interrupciones en las canalizaciones de datos y deriva de esquemas. * Ingeniería de software — Excelentes habilidades en Python (trabajará diariamente con FastAPI, Pydantic y pytest). Capacidad para leer y revisar código en C# y TypeScript. * Contenerización y orquestación — Experiencia práctica con Docker y Kubernetes en un entorno productivo (gestión de recursos, despliegues progresivos, sondas de salud). * Filosofía de pruebas — Piensa en términos de validación estratificada (unitaria, de integración, de contrato, comparación con tráfico en sombra) y sabe equilibrar cobertura con costo y velocidad. * Monitoreo y observabilidad — Experiencia diseñando paneles de control, alertas y trazados distribuidos para servicios donde «el servicio devolvió 200 pero la respuesta fue incorrecta» constituye un modo real de fallo. * Diseño de API — Capacidad para diseñar APIs REST claras y evolutivas, y negociar cambios de esquema entre equipos. * Comunicación — Será el principal punto de contacto entre Ciencia de Datos y los equipos de ingeniería de plataforma. Una comunicación escrita y verbal clara y precisa es esencial. * Dominio fluido tanto del español como del inglés. La mayoría de nuestras reuniones se llevan a cabo en español, pero el código y la mayor parte de la documentación están escritos en inglés. **Deseables** ------------------- * Experiencia con entornos de servicio de modelos (ONNX Runtime, TensorFlow Serving, Triton) o técnicas de compilación/optimización de modelos. * Conocimiento de Dagster, DVC o herramientas similares para canalizaciones de ML u orquestación de datos. * Conocimiento de la pila de observabilidad Prometheus / Grafana. * Experiencia en perfilado y optimización del rendimiento en Python (Polars, NumPy, Numba, Cython o extensiones en Rust). * Exposición a servicios financieros, toma de decisiones crediticias o entornos regulados donde la auditabilidad y la explicabilidad son fundamentales. * Experiencia construyendo o manteniendo canalizaciones CI/CD con validaciones automatizadas específicas para ML (verificaciones de calidad de datos, umbrales de rendimiento del modelo, análisis del impacto de las decisiones). * Conocimiento del ecosistema Azure (AKS, ACR, Azure DevOps). * Conocimiento de herramientas de prueba de API como Bruno o Postman para pruebas de contrato e integración. * Conocimiento de Pants u otros sistemas de construcción similares.

Fuentea: indeed Ver publicación original

Juan García

Indeed · HR

Compañía

Indeed

Juan García

Indeed · HR

Empleos similares

Ingeniero de Producción de ML — Decisiones de Originación

Descripción

Compañía

Empleos similares

Arquitecto de Software Sr

Becario de Ingenería

Ingeniero de Producto

Ingeniero de diseño y costos Jr

SURTIDOR

Gerente de Programa 3 (N)