




Buscamos **especialistas en evaluación de IA e ingeniería de datos** para diseñar, seleccionar y poner en funcionamiento conjuntos de datos y marcos de evaluación destinados a la evaluación del rendimiento de productos de IA. Este puesto implica trabajar con modelos de lenguaje grande (LLM), evaluadores humanos y herramientas de automatización para medir la precisión, corrección y usabilidad de los modelos. Principales responsabilidades * Crear y mantener **conjuntos de datos de evaluación** para modelos de IA en distintos lenguajes de programación (Python, Golang, JavaScript, Java). * Desarrollar y aplicar **directrices para etiquetado y puntuación de datos**, basadas en el marco de evaluación de Google. * Implementar **flujos de trabajo de calibración de jueces basados en LLM** para alinear las evaluaciones automatizadas y las realizadas por personas. * Realizar **análisis de errores, detección de desviaciones (drift)** y pruebas de regresión sobre las salidas de los modelos de IA. * Colaborar con ingenieros de automatización para integrar los conjuntos de datos en las canalizaciones de evaluación. * Apoyar la **capacitación de evaluadores**, las verificaciones de fiabilidad entre evaluadores y las revisiones de validación de conjuntos de datos. * Gestionar la **aseguramiento de la calidad de los datos** y la documentación de las contribuciones a repositorios mantenidos por Google. Habilidades y experiencia requeridas * Más de 4 años de experiencia en **operaciones de datos de IA/ML**, **evaluación** o **ingeniería de datos**. * Competencia en **Python** (obligatoria) para la manipulación, análisis y creación de scripts de conjuntos de datos. * Experiencia en **evaluación de LLM**, **ingeniería de indicaciones (prompt engineering)** o **evaluación de la calidad de la generación de texto**. * Conocimientos prácticos de **herramientas de evaluación Gemini CLI, Vertex AI o LangChain**. * Sólida comprensión de **curación de datos, flujos de trabajo de anotación** y **métricas de calidad de etiquetado**. * Experiencia práctica con **repositorios basados en Git** y flujos de trabajo de datos CI/CD. * Excelentes habilidades analíticas y de resolución de problemas, con atención al detalle. Cualificaciones preferidas * Experiencia en la evaluación de productos de IA basados en generación de código o procesamiento del lenguaje natural (NLP). * Conocimiento de **marcos de gobernanza de datos y cumplimiento normativo en materia de privacidad**. * Formación en ciencias de la computación, ciencia de datos o lingüística (preferible). Tipo de puesto: Tiempo completo, Por tiempo indeterminado Sueldo: $60,000.00 - $70,000.00 al mes Pregunta(s) de postulación: * Conocimiento práctico de herramientas de evaluación Gemini CLI, Vertex AI o LangChain * Competencia en Python (obligatoria) para la manipulación, análisis y creación de scripts de conjuntos de datos. * Experiencia práctica con repositorios basados en Git y flujos de trabajo de datos CI/CD. Lugar de trabajo: Empleo presencial


