




Resumen: Este puesto implica realizar pruebas de equipo rojo sobre modelos de IA conversacional, generar datos humanos de alta calidad para identificar vulnerabilidades y documentar casos de ataque reproducibles para hacer la IA más segura. Aspectos destacados: 1. Probar modelos de IA con entradas adversarias para identificar vulnerabilidades 2. Generar datos de equipo rojo para hacer la IA más segura para los clientes 3. Trabajar en temas sensibles con directrices claras y recursos de bienestar **Ubicación**: Teletrabajo **Tipo**: Contrato a tiempo completo o parcial **Conocimientos lingüísticos requeridos**: Inglés e italiano. Se exige fluidez nativa en inglés e italiano para este puesto. **Motivo de existencia de este puesto** Creemos que la IA más segura es aquella que ya ha sido atacada… por nosotros. Estamos formando un equipo rojo para este proyecto: expertos humanos en datos que prueban modelos de IA con entradas adversarias, identifican vulnerabilidades y generan los datos de equipo rojo que hacen la IA más segura para nuestros clientes. Este proyecto implica revisar salidas de IA que abordan temas sensibles como sesgo, desinformación o comportamientos dañinos. Todo el trabajo es textual, y la participación en proyectos de mayor sensibilidad es opcional y está respaldada por directrices claras y recursos de bienestar. Antes de acceder a cualquier contenido, se comunicarán claramente los temas correspondientes. **Sus responsabilidades** * Realizar pruebas de equipo rojo sobre modelos y agentes de IA conversacional: escapadas de controles (jailbreaks), inyecciones de indicaciones (prompt injections), casos de uso indebido, explotación de sesgos, manipulación multivuelta * Generar datos humanos de alta calidad: anotar fallos, clasificar vulnerabilidades y señalar riesgos sistémicos * Aplicar estructura: seguir taxonomías, referencias comparativas (benchmarks) y manuales operativos para mantener la coherencia en las pruebas * Documentar de forma reproducible: elaborar informes, conjuntos de datos y casos de ataque sobre los que los clientes puedan actuar **Perfil ideal** * Tener experiencia previa en pruebas de equipo rojo (trabajo adversario con IA, ciberseguridad, análisis socio-técnico) * Ser curioso y tener mentalidad adversaria: empujar instintivamente los sistemas hasta sus límites * Ser metódico: utilizar marcos de trabajo o referencias comparativas (benchmarks), no solo ataques aleatorios * Ser comunicativo: explicar claramente los riesgos a partes interesadas técnicas y no técnicas * Ser adaptable: destacar al transitar entre distintos proyectos y clientes **Competencias deseables (no excluyentes)** * Aprendizaje automático adversario: conjuntos de datos para escapadas de controles (jailbreak), inyección de indicaciones (prompt injection), ataques RLHF/DPO, extracción de modelos * Ciberseguridad: pruebas de penetración, desarrollo de exploits, ingeniería inversa * Riesgo socio-técnico: análisis de acoso/desinformación, análisis de abuso, pruebas de IA conversacional * Exploración creativa: psicología, interpretación, redacción para un pensamiento adversario poco convencional **Indicadores de éxito** * Identificar vulnerabilidades que las pruebas automatizadas pasan por alto * Entregar artefactos reproducibles que fortalezcan los sistemas de IA de los clientes * Ampliar la cobertura de evaluación: probar más escenarios y reducir sorpresas en producción


