




Resumen: Este puesto implica realizar actividades de equipo rojo sobre modelos de IA conversacional, identificar vulnerabilidades y generar datos para mejorar la seguridad y fiabilidad de los sistemas de IA para usuarios y clientes. Aspectos destacados: 1. Modelos y agentes de IA conversacional del equipo rojo 2. Generar datos humanos de alta calidad para mejorar los sistemas de IA 3. Descubrir vulnerabilidades que las pruebas automatizadas pasan por alto **Ubicación**: Remota **Tipo**: Trabajo por contrato a tiempo completo o parcial **Conocimientos lingüísticos fluidos requeridos:** inglés y coreano. Se exige fluidez nativa en inglés y coreano para este puesto. **Motivo de existencia de este puesto** Creemos que la IA más segura es aquella que ya ha sido probada y desafiada, por nosotros. Estamos conformando un equipo rojo para este proyecto: expertos humanos en datos que someten a prueba los modelos de IA con entradas adversarias, identifican vulnerabilidades y generan datos de equipo rojo que contribuyen a hacer los sistemas de IA más seguros y fiables para usuarios y clientes. Este proyecto implica revisar salidas de IA relacionadas con temas sensibles, como sesgos, desinformación o comportamientos dañinos. Todo el trabajo es basado en texto, y la participación en proyectos de mayor sensibilidad es opcional y cuenta con directrices claras y recursos de bienestar. Antes de estar expuesto a cualquier contenido, se comunicarán claramente los temas correspondientes. **Sus responsabilidades** * Realizar actividades de equipo rojo sobre modelos y agentes de IA conversacional: escapadas (jailbreaks), inyecciones de indicaciones (prompt injections), casos de uso indebido, explotación de sesgos, manipulación multi-turno * Generar datos humanos de alta calidad: anotar fallos, clasificar vulnerabilidades y señalar riesgos sistémicos * Aplicar estructura: seguir taxonomías, referencias comparativas (benchmarks) y manuales para mantener coherencia en las pruebas * Documentar de forma reproducible: elaborar informes, conjuntos de datos y casos de ataque sobre los que los clientes puedan actuar **Perfil ideal** * Tener experiencia previa en actividades de equipo rojo (trabajo adversario con IA, ciberseguridad, sondeo socio-técnico) * Ser curioso y adversario: impulsar instintivamente los sistemas hasta sus límites de resistencia * Ser estructurado: utilizar marcos de trabajo o referencias comparativas (benchmarks), no solo ataques aleatorios * Ser comunicativo: explicar claramente los riesgos tanto a partes interesadas técnicas como no técnicas * Ser adaptable: prosperar al trasladarse entre distintos proyectos y clientes **Especialidades deseables (no obligatorias)** * Aprendizaje adversario (Adversarial ML): conjuntos de datos para escapadas (jailbreak), inyección de indicaciones (prompt injection), ataques RLHF/DPO, extracción de modelos * Ciberseguridad: pruebas de penetración, desarrollo de exploits, ingeniería inversa * Riesgo socio-técnico: sondeo de acoso/desinformación, análisis de abuso, pruebas de IA conversacional * Sondeo creativo: psicología, interpretación, escritura para un pensamiento adversario poco convencional **Indicadores de éxito** * Descubrir vulnerabilidades que las pruebas automatizadas pasan por alto * Entregar artefactos reproducibles que fortalezcan los sistemas de IA de los clientes * Ampliación de la cobertura de evaluación: más escenarios probados, menos sorpresas en producción


