




Resumen: Este puesto implica realizar pruebas con el equipo rojo sobre modelos de IA conversacional para identificar vulnerabilidades y generar datos que contribuyan a sistemas de IA más seguros, revisando las salidas en temas sensibles como sesgo y desinformación. Aspectos destacados: 1. Realizar pruebas con el equipo rojo sobre modelos de IA conversacional para identificar vulnerabilidades 2. Generar datos humanos de alta calidad para fortalecer los sistemas de IA 3. Participar en pruebas adversariales y creativas para la evaluación de riesgos **Ubicación**: Remota **Tipo**: Trabajo por contrato a tiempo completo o parcial **Conocimientos lingüísticos fluidos requeridos:** inglés y coreano. Se exige fluidez nativa en inglés y coreano para este puesto. **Motivo de existencia de este puesto** Creemos que la IA más segura es aquella que ya ha sido probada y sometida a desafíos, por nosotros. Estamos formando un equipo rojo para este proyecto: expertos humanos en datos que someten a prueba los modelos de IA con entradas adversariales, identifican vulnerabilidades y generan datos del equipo rojo que ayudan a hacer que los sistemas de IA sean más seguros y fiables para usuarios y clientes. Este proyecto implica revisar las salidas de la IA relacionadas con temas sensibles, como sesgo, desinformación o conductas dañinas. Todo el trabajo es textual y la participación en proyectos de mayor sensibilidad es opcional, contando con directrices claras y recursos para el bienestar. Antes de acceder a cualquier contenido, se comunicarán claramente los temas correspondientes. **Sus responsabilidades** * Realizar pruebas con el equipo rojo sobre modelos y agentes de IA conversacional: intentos de evasión (jailbreaks), inyecciones de indicaciones (prompt injections), casos de uso indebido, explotación de sesgos y manipulación en múltiples turnos * Generar datos humanos de alta calidad: anotar fallos, clasificar vulnerabilidades y señalar riesgos sistémicos * Aplicar estructura: seguir taxonomías, referencias comparativas (benchmarks) y manuales operativos para mantener la coherencia en las pruebas * Documentar de forma reproducible: elaborar informes, conjuntos de datos y casos de ataque sobre los que los clientes puedan actuar **Perfil ideal** * Posee experiencia previa en pruebas con el equipo rojo (trabajo adversarial con IA, ciberseguridad, exploración socio-técnica) * Es curioso y adversarial: empuja instintivamente los sistemas hasta sus límites * Es estructurado: utiliza marcos de trabajo o referencias comparativas (benchmarks), no solo ataques aleatorios * Es comunicativo: explica los riesgos con claridad tanto a partes interesadas técnicas como no técnicas * Es adaptable: se desenvuelve con facilidad al transitar entre distintos proyectos y clientes **Especialidades deseables (no obligatorias)** * Aprendizaje automático adversarial: conjuntos de datos para intentos de evasión (jailbreak), inyección de indicaciones (prompt injection), ataques RLHF/DPO, extracción de modelos * Ciberseguridad: pruebas de penetración, desarrollo de exploits, ingeniería inversa * Riesgo socio-técnico: exploración de acoso/desinformación, análisis de abusos, pruebas de IA conversacional * Exploración creativa: psicología, interpretación teatral, redacción para un pensamiento adversarial poco convencional **Indicadores de éxito** * Descubre vulnerabilidades que las pruebas automatizadas pasan por alto * Entrega artefactos reproducibles que fortalecen los sistemas de IA de los clientes * Ampliación de la cobertura de evaluación: se prueban más escenarios y surgen menos sorpresas en producción


