




Resumen: Buscamos a un Ingeniero de Canalizaciones de Datos para construir y mantener canalizaciones de datos, integrar nuevas fuentes de datos, diseñar cálculos de características, garantizar la calidad de los datos y asumir la responsabilidad de un subconjunto de productos de préstamos de extremo a extremo dentro de un equipo pequeño. Aspectos destacados: 1. Posee una porción completa de la pila de extremo a extremo y un subconjunto de productos de préstamos 2. Se enfoca en la calidad de los datos y en las mejoras de las canalizaciones 3. Oportunidad de diseñar cálculos avanzados de características e integración de aprendizaje automático DESCRIPCIÓN **Acerca del puesto** ------------------ Nuestro equipo de Decisiones de Originación construye los sistemas que deciden, en tiempo real, si otorgar un préstamo a un solicitante y bajo qué condiciones (monto, plazo, tasa de interés). El equipo es pequeño (4 personas) y cada miembro asume la responsabilidad de una porción de la pila de extremo a extremo: * un arquitecto de Decisor, quien diseña cómo se componen las decisiones y cómo modelamos las ganancias; * un científico de datos, quien entrena los modelos de aprendizaje automático más precisos que alimentan dichas decisiones; * un ingeniero de despliegue, quien lleva los decisores a producción y asume la responsabilidad de las puertas de control de calidad alrededor de ellos; * **y el ingeniero de canalizaciones de datos que estamos contratando con este puesto.** Además de su especialidad, usted asumirá la responsabilidad de un subconjunto de nuestros productos de préstamos de extremo a extremo: construirá sus conjuntos de datos, entrenará sus modelos, configurará su decisor y los acompañará hasta producción. Este "autouso" lo mantiene cerca de los puntos problemáticos generados por su canalización y constituye el principal bucle de retroalimentación que impulsa la hoja de ruta de su área. **Qué usted asumirá la responsabilidad** --------------------- Como ingeniero de canalizaciones de datos, usted es el principal garante de que el resto del equipo siempre cuente con conjuntos de datos frescos, confiables y fáciles de usar para entrenar modelos, analizar comportamientos y tomar decisiones. Concretamente, usted: ### **Construir y mantener la canalización de datos** * Asumirá la responsabilidad de la canalización Dagster del equipo. * Mantendrá los activos actualizados, observables y económicos de volver a calcular. Hará evidente para los demás miembros del equipo qué conjuntos de datos existen, qué contienen y cómo consumirlos. ### **Incorporar nuevas fuentes de datos** * Colaborará con proveedores externos de datos en pruebas de concepto: organizará ejecuciones de rellenado retrospectivo, les enviará las muestras requeridas, almacenará y versionará los datos devueltos, y evaluará si la señal vale la pena llevarla al producto. * De manera similar, explorará los datos disponibles internamente que están subutilizados con fines de decisiones de originación. Por ejemplo, la transcripción de llamadas de cobranza podría convertirse en características (para renovaciones de préstamos) o en verdad fundamental (para obtener una imagen más precisa del cliente que la que ofrecen únicamente los pagos realizados). * Cuando una fuente resulte prometedora, la integrará de extremo a extremo: reconciliará los volcados de rellenado retrospectivo con la fuente de API en vivo, extraerá características de forma consistente de ambas y las expondrá a los consumidores downstream. ### **Diseñar cálculos de características, no solo mover datos** Parte del trabajo en la canalización es pura ingeniería de datos (uniones, agregaciones, limpieza), pero gran parte se acerca más a las matemáticas aplicadas y al aprendizaje automático: * Diseñar fórmulas de Valor a Largo Plazo que vinculen estimaciones de ganancias por préstamo con descuentos temporales y promedios poblacionales para estados futuros no observados (por ejemplo, "ganancia promedio de un tercer préstamo para clientes similares a este"), de modo que el equipo pueda comparar políticas contrarias como "¿cuál sería el VLTP si únicamente usáramos el decisor base X?". * Construir almacenes de características offline para clientes conocidos y servirlos mediante un almacén de baja latencia, para que el decisor en línea pueda utilizar información que no cabe en la carga útil de la solicitud. * Ejecutar inferencia de rechazos como un proceso recurrente: muestrear periódicamente solicitudes rechazadas anteriores, obtener informes crediticios actualizados, transformarlos en pseudo-verdades fundamentales y fusionarlos en los conjuntos de datos de entrenamiento. * Usar modelos de lenguaje grande (LLM) y otros modelos dentro de la canalización cuando sean la herramienta adecuada (por ejemplo, extracción de características de transcripciones de videollamadas, predicción inmediata de ganancias y morosidad en préstamos). * Implementar una preselección de características dentro de la canalización (clasificación por poder predictivo, eliminación de correlaciones, conservación de las ~N mejores) para que los conjuntos de datos que entregamos sean una orden de magnitud más pequeños que los actuales sin perder señal. ### **Asumir la responsabilidad de la calidad de los datos** * Agregar pruebas a la mayoría de los activos Dagster y tomar una decisión deliberada para cada uno: ¿un fallo bloquea los activos downstream?, ¿desencadena una alerta?, ¿o simplemente se registra? * Garantizar que las refactorizaciones y migraciones no cambien silenciosamente el valor de las características existentes. * Cuando algo falle, investigue rápidamente, corrija la causa raíz y deje detrás una nueva prueba más cercana a la fuente del problema, para que esa clase de error no vuelva a aparecer inadvertida. ### **Ser usuario de su propia plataforma** Usted también será responsable de un subconjunto de nuestros productos: construirá sus conjuntos de datos, entrenará modelos de aprendizaje automático sobre ellos, configurará un decisor y lo acompañará hasta producción. Los comentarios que reciba como usuario alimentarán directamente las prioridades de su trabajo en la canalización y le darán fundamentos concretos para coordinarse con el científico de datos, el ingeniero de decisores y el ingeniero de despliegue en mejoras transversales al equipo. **Cómo se verá el éxito después de 12 meses** ------------------------------------------- * El equipo confía por defecto en los conjuntos de datos: si un modelo se comporta de forma extraña, la primera hipótesis ya no es "quizás la canalización está equivocada". * Al menos una nueva fuente externa de datos ha sido integrada de extremo a extremo, desde la prueba de concepto hasta su uso en un decisor de producción. * Las fuentes internas de datos más importantes han sido transformadas en características disponibles para el científico de datos. * Los conjuntos de datos de entrenamiento son notablemente más pequeños y más rápidos de cargar, gracias a la preselección de características dentro de la canalización, sin pérdida medible en el rendimiento del modelo. * Para los productos bajo su responsabilidad, ha lanzado al menos un decisor mejorado a producción, y las lecciones obtenidas de esa experiencia han moldeado mejoras concretas en la canalización compartida. **Beneficios** ------------ * Paquete de compensación atractivo, incluyendo opciones accionarias. * Entorno dinámico con importantes oportunidades de crecimiento. * 15 días anuales de vacaciones + 7 días personales anuales. * Opción de trabajar de forma remota 3-4 días por semana; o totalmente remota (siempre que pueda acudir a CDMX aproximadamente dos veces al año) * Horario laboral flexible REQUISITOS **Habilidades requeridas** ------------------- * Fuerte dominio de Python para canalizaciones de datos en producción: código limpio y tipado, pruebas, refactorización, revisión de código. * Experiencia práctica con un orquestador moderno (idealmente Dagster; Airflow, Prefect, Flyte o equivalente es aceptable) y con almacenes de datos (BigQuery o Snowflake / Redshift). Capacidad para escribir SQL no trivial. * Sólidos fundamentos matemáticos. Puede leer una especificación como "suma descontada de las ganancias futuras de préstamos, recurriendo a promedios poblacionales cuando el estado no ha sido observado" y transformarla en una implementación correcta y bien probada, sin evadir casos límite. * Conocimientos prácticos de aprendizaje automático. No necesita ser investigador, pero debe sentirse cómodo con los fundamentos: divisiones entre conjuntos de entrenamiento y prueba, ingeniería de características, importancia y correlación de características, cómo se entrenan y sirven los modelos. Debe poder leer el código del científico de datos, comprender para qué se usan las características y diseñar canalizaciones que faciliten su trabajo. * Mentalidad orientada a pruebas y observabilidad. Naturalmente piensa en qué puede salir mal con un conjunto de datos, dónde deben ubicarse las pruebas y cuándo un fallo merece despertar a alguien. * Habilidades de colaboración. Una parte significativa del puesto consiste en coordinarse con proveedores externos de datos y con los otros tres miembros del equipo; poder explicar claramente los compromisos (en inglés y, idealmente, en documentación escrita) es esencial. * Dominio fluido tanto del español como del inglés. La mayoría de nuestras reuniones son en español, pero el código y la mayor parte de la documentación están escritos en inglés. * Conocimiento de git. **Deseable** ---------------- * Experiencia específica con Dagster (activos, particiones, administradores de E/S, sensores) o con un orquestador basado en activos comparable. * Experiencia construyendo u operando un almacén de características de baja latencia (Feast, Tecton, Vertex AI Feature Store, o uno desarrollado internamente). * Familiaridad con la extracción de características de LLM / PLN en canalizaciones por lotes (generación de prompts, almacenamiento en caché, control de costos, evaluación). * Experiencia en crédito, préstamos u otros dominios de modelado de riesgos, y con conceptos como inferencia de rechazos, VLTP, análisis por vintage. * Exposición a datos geoespaciales (características a nivel de código postal / manzana). * Experiencia diseñando canalizaciones de selección de características a gran escala (información mutua, clasificación basada en SHAP, poda por correlación, etc.). * Experiencia con el resto de nuestra pila tecnológica y bibliotecas importantes: TrueFoundry, DVC, Pants, Docker, FastAPI, pydantic.


