




Resumen: Únase a un equipo rojo de expertos en datos humanos para probar modelos de IA con entradas adversariales, identificar vulnerabilidades y generar datos que hagan que la IA sea más segura para los clientes. Aspectos destacados: 1. Modelos y agentes de IA conversacional del equipo rojo para descubrir vulnerabilidades 2. Generar datos humanos de alta calidad: anotar fallos, clasificar vulnerabilidades 3. Realizar sondeos creativos para un pensamiento adversarial no convencional **Modalidad de trabajo:** Remota **Tipo de vinculación:** Contratista independiente **Horario:** Contrato a tiempo completo o a tiempo parcial **Conocimientos lingüísticos fluidos requeridos:** Inglés y coreano. Se requiere fluidez nativa en inglés y coreano para este puesto. **Función:** Creemos que la IA más segura es aquella que ya ha sido atacada — por nosotros. Estamos conformando un equipo rojo para este proyecto — expertos humanos en datos que prueban modelos de IA con entradas adversariales, identifican vulnerabilidades y generan datos del equipo rojo que hacen que la IA sea más segura para nuestros clientes. Este proyecto implica revisar salidas de IA relacionadas con temas sensibles, como sesgos, desinformación o comportamientos dañinos. Todo el trabajo es basado en texto, y la participación en proyectos de mayor sensibilidad es opcional y está respaldada por pautas claras y recursos para el bienestar. Antes de exponerse a cualquier contenido, se comunicarán claramente los temas correspondientes. **Sus responsabilidades** * Probar modelos y agentes de IA conversacional del equipo rojo: escapadas (jailbreaks), inyecciones de indicaciones (prompt injections), casos de uso indebido, explotación de sesgos, manipulación multivuelta * Generar datos humanos de alta calidad: anotar fallos, clasificar vulnerabilidades y señalar riesgos sistémicos * Aplicar estructura: seguir taxonomías, referencias comparativas (benchmarks) y manuales operativos (playbooks) para mantener la coherencia en las pruebas * Documentar de forma reproducible: producir informes, conjuntos de datos y casos de ataque sobre los que los clientes puedan actuar **Perfil deseado** * Experiencia previa en equipos rojos (trabajo adversarial con IA, ciberseguridad, sondeo socio-técnico) * Curiosidad y mentalidad adversarial: capacidad instintiva para llevar los sistemas al límite de su funcionamiento * Estructuración: uso de marcos metodológicos o referencias comparativas (benchmarks), no solo ataques aleatorios * Capacidad comunicativa: explicación clara de los riesgos tanto a partes interesadas técnicas como no técnicas * Adaptabilidad: capacidad para desempeñarse exitosamente en distintos proyectos y con distintos clientes **Especialidades deseables (no excluyentes)** * Aprendizaje automático adversarial: conjuntos de datos para escapadas (jailbreak), inyección de indicaciones (prompt injection), ataques RLHF/DPO, extracción de modelos * Ciberseguridad: pruebas de penetración, desarrollo de exploits, ingeniería inversa * Riesgo socio-técnico: sondeo de acoso/desinformación, análisis de abuso, pruebas de IA conversacional * Sondeo creativo: psicología, interpretación teatral, redacción para un pensamiento adversarial no convencional **Indicadores de éxito** * Identificación de vulnerabilidades que las pruebas automatizadas pasan por alto * Entrega de artefactos reproducibles que refuercen los sistemas de IA de los clientes * Ampliación de la cobertura de evaluación: mayor número de escenarios probados, menos sorpresas en producción **Términos contractuales y de pago** ------------------------------ * + Será contratado como contratista independiente. + Se trata de un puesto completamente remoto que puede realizarse según su propio horario. + Los proyectos pueden ampliarse, acortarse o finalizarse anticipadamente según las necesidades y el desempeño. + Los pagos se realizan semanalmente mediante Stripe o Wise, según los servicios prestados.


