Ingeniero de Canalizaciones de Datos, Decisiones de Originación

Indeed

Tiempo completo

Presencial

Sin requisito de experiencia

Sin requisito de título

México, 99999, México

Favoritos

Parte del contenido se ha traducido automáticamenteVer original

Descripción

Resumen: Este puesto implica construir y mantener canalizaciones de datos para decisiones en tiempo real sobre la originación de préstamos, integrar nuevas fuentes de datos, diseñar cálculos de características y garantizar la calidad de los datos dentro de un equipo pequeño y colaborativo. Aspectos destacados: 1. Tener responsabilidad integral sobre una parte de la pila técnica, incluidos productos de préstamos específicos. 2. Influir en la hoja de ruta mediante el uso interno de las canalizaciones que tú mismo creas. 3. Diseñar cálculos sofisticados de características más allá del mero movimiento de datos. DESCRIPCIÓN **Acerca del puesto** ------------------ Nuestro equipo de Decisiones de Originación construye los sistemas que deciden, en tiempo real, si conceder o no un préstamo a un solicitante y bajo qué condiciones (monto, plazo, tasa de interés). El equipo es pequeño (4 personas) y cada miembro tiene responsabilidad integral sobre una parte de la pila técnica: * Un arquitecto de decisores, que diseña cómo se componen las decisiones y cómo modelamos la rentabilidad; * Un científico de datos, que entrena los modelos de aprendizaje automático (ML) más precisos que alimentan dichas decisiones; * Un ingeniero de despliegue, que lleva los decisores a producción y es responsable de las puertas de control de calidad asociadas; * **y el ingeniero de canalizaciones de datos que estamos contratando con este puesto.** Además de tu especialidad, tendrás responsabilidad integral sobre un subconjunto de nuestros productos de préstamos: construirás sus conjuntos de datos, entrenarás sus modelos, configurarás su decisor y los acompañarás hasta producción. Este "uso interno" te mantiene cerca de los puntos problemáticos generados por tus canalizaciones y constituye el principal ciclo de retroalimentación que impulsa la hoja de ruta de tu área. **Lo que tendrás a tu cargo** --------------------- Como ingeniero de canalizaciones de datos, eres el principal garante de que el resto del equipo siempre cuente con conjuntos de datos frescos, fiables y fáciles de usar para entrenar modelos, analizar comportamientos y tomar decisiones. Concretamente, tú: ### **Construir y mantener la canalización de datos** * Serás responsable de la canalización Dagster del equipo. * Mantendrás los activos actualizados, observables y económicos de volver a calcular. Harás evidente para los demás miembros del equipo qué conjuntos de datos existen, qué contienen y cómo consumirlos. ### **Incorporar nuevas fuentes de datos** * Colaborarás con proveedores externos de datos en pruebas de concepto: organizarás ejecuciones de rellenado retrospectivo (backpopulation), les enviarás las muestras requeridas, almacenarás y versionarás los datos devueltos, y evaluarás si la señal merece ser convertida en producto. * Asimismo, explorarás los datos disponibles internamente que están infrautilizados con fines de decisiones de originación. Por ejemplo, las transcripciones de llamadas de cobranza podrían convertirse en características (para renovaciones de préstamos) o en datos de referencia (groundtruth) (para obtener una imagen más precisa del cliente que la que brindan únicamente sus pagos). * Cuando una fuente resulte prometedora, la integrarás integralmente: conciliarás los volcados de rellenado retrospectivo con el flujo de API en vivo, extraerás características de forma coherente a partir de ambos y las expondrás a los consumidores downstream. ### **Diseñar cálculos de características, no solo mover datos** Parte del trabajo en la canalización es pura ingeniería de datos (uniones, agregaciones, limpieza), pero gran parte se acerca más a las matemáticas aplicadas y al aprendizaje automático: * Diseñar fórmulas de Valor a Largo Plazo (LTV) que combinen estimaciones de rentabilidad por préstamo con descuentos temporales y promedios poblacionales para estados futuros no observados (p. ej., "rentabilidad promedio de un tercer préstamo para clientes similares a este"), de modo que el equipo pueda comparar políticas contrarias, como "¿cuál sería el LTV si solo usáramos el decisor base X?". * Construir almacenes de características offline para clientes conocidos y ofrecerlos mediante un almacén de baja latencia, para que el decisor en línea pueda utilizar información que no cabe en la carga útil de la solicitud. * Ejecutar inferencia de rechazos como proceso periódico: muestrear periódicamente solicitudes rechazadas previamente, obtener nuevos informes crediticios, convertirlos en pseudo-datos de referencia (pseudo-groundtruths) y fusionarlos en los conjuntos de datos de entrenamiento. * Usar modelos de lenguaje de gran tamaño (LLM) y otros modelos dentro de la canalización cuando sea la herramienta adecuada (p. ej., extraer características de transcripciones de videollamadas, predecir en tiempo casi real las ganancias y los impagos de préstamos). * Implementar una preselección de características dentro de la canalización (clasificación por poder predictivo, descorrelación, conservación de las ~N mejores) para que los conjuntos de datos que entregamos sean un orden de magnitud más pequeños que los actuales sin perder señal. ### **Asumir la responsabilidad de la calidad de los datos** * Agregar pruebas a la mayoría de los activos Dagster y tomar una decisión intencional para cada uno: ¿una falla bloquea los activos downstream?, ¿desencadena una alerta? o ¿simplemente se registra? * Garantizar que las refactorizaciones y migraciones no modifiquen silenciosamente el valor de las características existentes. * Cuando algo falle, investigar rápidamente, corregirlo en su raíz y dejar detrás una nueva prueba más cercana a la fuente del problema, para que esa clase de error no vuelva a pasar inadvertida. ### **Ser usuario de tu propia plataforma** También serás responsable de un subconjunto de nuestros productos: construirás sus conjuntos de datos, entrenarás modelos de ML sobre ellos, configurarás un decisor y lo acompañarás hasta producción. La retroalimentación que obtengas como usuario alimentará directamente las prioridades de tu trabajo en canalizaciones y te dará fundamentos concretos para coordinarte con el científico de datos, el arquitecto de decisores y el ingeniero de despliegue en mejoras transversales al equipo. **Qué significa el éxito tras 12 meses** ------------------------------------------- * El equipo confía por defecto en los conjuntos de datos: si un modelo se comporta de forma extraña, la primera hipótesis ya no es "quizás la canalización está equivocada". * Al menos una nueva fuente externa de datos ha sido integrada integralmente, desde la prueba de concepto hasta su uso en un decisor en producción. * Las fuentes internas de datos más importantes han sido transformadas en características disponibles para el científico de datos. * Los conjuntos de datos de entrenamiento son notablemente más pequeños y más rápidos de cargar, gracias a la preselección de características dentro de la canalización, sin pérdida medible en el rendimiento del modelo. * Para los productos bajo tu responsabilidad, has lanzado al menos un decisor mejorado a producción, y las lecciones obtenidas de esa experiencia han dado forma a mejoras concretas en la canalización compartida. **Beneficios** ------------ * Paquete de compensación atractivo, que incluye opciones sobre acciones. * Entorno dinámico con importantes oportunidades de crecimiento. * 15 días de vacaciones anuales + 7 días personales anuales. * Opción de trabajar de forma remota 3-4 días por semana; o totalmente de forma remota (siempre que puedas acudir a CDMX aproximadamente dos veces al año). * Horario laboral flexible REQUISITOS **Habilidades requeridas** ------------------- * Fuerte dominio de Python para canalizaciones de datos en producción: código limpio y tipado, pruebas, refactorización, revisiones de código. * Experiencia práctica con un orquestador moderno (idealmente Dagster; Airflow, Prefect, Flyte o equivalente también son válidos) y con almacenes de datos (BigQuery o Snowflake / Redshift). Capacidad para escribir SQL no trivial. * Sólidos fundamentos matemáticos. Puedes leer una especificación como "suma descontada de las ganancias futuras de préstamos, recurriendo a promedios poblacionales cuando el estado no ha sido observado" y convertirla en una implementación correcta y bien probada, sin evadir casos límite. * Conocimientos prácticos de aprendizaje automático. No necesitas ser investigador, pero sí debes estar cómodo con los fundamentos: divisiones entre conjuntos de entrenamiento y prueba, ingeniería de características, importancia y correlación de características, cómo se entrenan y sirven los modelos. Debes poder leer el código del científico de datos, comprender para qué se usan las características y diseñar canalizaciones que faciliten su trabajo. * Mentalidad orientada a pruebas y observabilidad. Naturalmente piensas en qué puede salir mal con un conjunto de datos, dónde deben ubicarse las pruebas y cuándo una falla justifica despertar a alguien. * Habilidades de colaboración. Una parte significativa del trabajo consiste en coordinarte con proveedores externos de datos y con los otros tres miembros del equipo; ser capaz de explicar claramente los compromisos (en inglés y, preferiblemente, en documentación escrita) es esencial. * Dominio fluido tanto del español como del inglés. La mayoría de nuestras reuniones se llevan a cabo en español, pero el código y la mayor parte de la documentación están escritos en inglés. * Conocimiento de git. **Deseable** ---------------- * Experiencia específica con Dagster (activos, particiones, gestores de E/S, sensores) o con un orquestador basado en activos equivalente. * Experiencia construyendo u operando un almacén de características de baja latencia (Feast, Tecton, Vertex AI Feature Store, o uno desarrollado internamente). * Familiaridad con la extracción de características de LLM / PLN en canalizaciones por lotes (generación de prompts, almacenamiento en caché, control de costos, evaluación). * Experiencia en crédito, préstamos u otros dominios de modelado de riesgo, y con conceptos como inferencia de rechazos, LTV, análisis por vintage. * Exposición a datos geoespaciales (características a nivel de código postal / manzana). * Experiencia diseñando canalizaciones de selección de características a escala (información mutua, clasificación basada en SHAP, poda por correlación, etc.). * Experiencia con el resto de nuestra pila tecnológica y bibliotecas importantes: TrueFoundry, DVC, Pants, Docker, FastAPI, pydantic.

Fuentea: indeed Ver publicación original

Juan García

Indeed · HR

Compañía

Indeed

Juan García

Indeed · HR

Empleos similares

Ingeniero de Canalizaciones de Datos, Decisiones de Originación

Descripción

Compañía

Empleos similares

Recepción

Consejero Universitario de Prospección

Se necesitan cocineros, camareros, vigilantes y conductores en Toronto.

Prefectura para escuela

Docente de psicología - Maestria en psicologia clinica o educación

AGENTE DE VENTAS