Ingeniero C++ Runtime de IA (Guadalajara, México)

Salario negociable

Indeed

Tiempo completo

Presencial

Sin requisito de experiencia

Sin requisito de título

Heroico Colegio Militar 323, Reforma, 44890 Guadalajara, Jal., Mexico

Favoritos

Nueva

Parte del contenido se ha traducido automáticamenteVer original

Descripción

### **Acerca de nosotros** Somos una **startup en modo sigilo** desarrollando infraestructura de nueva generación para la industria de la IA. Nuestro equipo tiene décadas de experiencia en software, sistemas y tecnologías profundas. Estamos trabajando en un nuevo tipo de entorno de ejecución de IA que amplía los límites del rendimiento y la flexibilidad, haciendo que los modelos avanzados sean portátiles, eficientes y personalizables para su implementación en el mundo real. Si deseas formar parte de un equipo pequeño y dinámico que está moldeando el **futuro de los sistemas de IA aplicada**, esta es tu oportunidad. ### **Rol** Estamos buscando un **ingeniero C\+\+** con sólida experiencia en sistemas y programación de GPU para ayudar a extender y optimizar un entorno de ejecución de inferencia de IA de código abierto. Trabajarás en componentes internos de bajo nivel para la ejecución de modelos de lenguaje grandes, centrándote en: * Integración dinámica de adaptadores (por ejemplo, LoRA/QLoRA) * Mecanismos de actualización incremental de modelos * Almacenamiento en caché y planificación de inferencia multi-sesión * Mejoras de rendimiento en GPU (Núcleos Tensor, CUDA/ROCm) Este es un puesto **práctico**: diseñarás, codificarás, realizarás perfiles y harás iteraciones sobre código de inferencia de alto rendimiento que se ejecuta directamente en CPUs y GPUs. ### **Responsabilidades** * Implementar soporte para **carga de adaptadores en tiempo de ejecución (LoRA)**, permitiendo personalizar modelos sobre la marcha sin necesidad de reentrenamiento o fusionar modelos. * Diseñar e implementar mecanismos para **deltas incrementales de modelos**, permitiendo extender y actualizar modelos de forma eficiente. * Extender el entorno de ejecución para manejar **ejecución multi-sesión**, con estrategias de aislamiento y caché para usuarios concurrentes. * Optimizar núcleos matemáticos básicos y estructuras de memoria para mejorar el rendimiento de inferencia en **backends de CPU y GPU**. * Colaborar con ingenieros de backend e infraestructura para integrar tu trabajo en APIs y capas de orquestación. * Escribir pruebas de referencia, pruebas unitarias y herramientas de perfilado para garantizar la corrección y medir las mejoras de rendimiento. * Participar en discusiones sobre la arquitectura del sistema y ayudar a definir la hoja de ruta para futuras funciones del entorno de ejecución. ### **Requisitos** * Alta competencia en **C\+\+ moderno (C\+\+14/17/20\)** y programación de sistemas. * Sólido conocimiento de **optimización de bajo nivel**: gestión de memoria, multithreading, SIMD, eficiencia de caché. * Experiencia con programación de GPU mediante **CUDA** y/o **ROCm/HIP**. * Conocimiento de **núcleos de álgebra lineal** (multiplicación de matrices, atención) y cómo se mapean a aceleración por hardware (Núcleos Tensor, bibliotecas BLAS, etc.). * Experiencia con **frameworks de inferencia de aprendizaje automático** (por ejemplo, llama.cpp, TensorRT, ONNX Runtime, TVM, componentes internos de PyTorch) es un plus. * Comodidad trabajando en entornos **Unix/Linux**; experiencia con sistemas de compilación (CMake, Bazel) y pipelines de CI. * Habilidades sólidas para resolver problemas y depuración; capacidad para analizar profundamente tanto el código como los rastros de rendimiento. * Autonomía y capacidad para prosperar en un entorno de **startup dinámico**. ### **Deseable** * Experiencia implementando **LoRA o ajuste fino basado en adaptadores** en entornos de inferencia. * Conocimiento de **métodos de cuantización** y despliegue eficiente de modelos cuantizados. * Antecedentes en sistemas distribuidos o orquestación multi-GPU. * Contribuciones a **sistemas de IA/ML de código abierto**. ### **Por qué unirse** * Desarrollar propiedad intelectual clave en la intersección entre **IA e ingeniería de sistemas**. * Trabajar con un equipo fundador altamente técnico en problemas que son a la vez desafiantes intelectualmente y con impacto comercial. * Oportunidad de influir en la dirección de una nueva plataforma de IA desde cero. * Compensación competitiva (contrato o tiempo completo), posibilidad de participación accionaria y trabajo remoto flexible. Por favor, utiliza este enlace para postularte a este empleo: https://www.baasi.com/career/apply/3164121

Fuentea: indeed Ver publicación original