




### **Acerca de nosotros** Somos una **startup en modo sigilo** desarrollando infraestructura de nueva generación para la industria de la IA. Nuestro equipo tiene décadas de experiencia en software, sistemas y tecnologías profundas. Estamos trabajando en un nuevo tipo de entorno de ejecución de IA que amplía los límites del rendimiento y la flexibilidad, haciendo que los modelos avanzados sean portátiles, eficientes y personalizables para su implementación en el mundo real. Si deseas formar parte de un equipo pequeño y dinámico que está moldeando el **futuro de los sistemas de IA aplicada**, esta es tu oportunidad. ### **Rol** Estamos buscando un **ingeniero C\+\+** con sólida experiencia en sistemas y programación de GPU para ayudar a extender y optimizar un entorno de ejecución de inferencia de IA de código abierto. Trabajarás en componentes internos de bajo nivel para la ejecución de modelos de lenguaje grandes, centrándote en: * Integración dinámica de adaptadores (por ejemplo, LoRA/QLoRA) * Mecanismos de actualización incremental de modelos * Almacenamiento en caché y planificación de inferencia multi-sesión * Mejoras de rendimiento en GPU (Núcleos Tensor, CUDA/ROCm) Este es un puesto **práctico**: diseñarás, codificarás, realizarás perfiles y harás iteraciones sobre código de inferencia de alto rendimiento que se ejecuta directamente en CPUs y GPUs. ### **Responsabilidades** * Implementar soporte para **carga de adaptadores en tiempo de ejecución (LoRA)**, permitiendo personalizar modelos sobre la marcha sin necesidad de reentrenamiento o fusionar modelos. * Diseñar e implementar mecanismos para **deltas incrementales de modelos**, permitiendo extender y actualizar modelos de forma eficiente. * Extender el entorno de ejecución para manejar **ejecución multi-sesión**, con estrategias de aislamiento y caché para usuarios concurrentes. * Optimizar núcleos matemáticos básicos y estructuras de memoria para mejorar el rendimiento de inferencia en **backends de CPU y GPU**. * Colaborar con ingenieros de backend e infraestructura para integrar tu trabajo en APIs y capas de orquestación. * Escribir pruebas de referencia, pruebas unitarias y herramientas de perfilado para garantizar la corrección y medir las mejoras de rendimiento. * Participar en discusiones sobre la arquitectura del sistema y ayudar a definir la hoja de ruta para futuras funciones del entorno de ejecución. ### **Requisitos** * Alta competencia en **C\+\+ moderno (C\+\+14/17/20\)** y programación de sistemas. * Sólido conocimiento de **optimización de bajo nivel**: gestión de memoria, multithreading, SIMD, eficiencia de caché. * Experiencia con programación de GPU mediante **CUDA** y/o **ROCm/HIP**. * Conocimiento de **núcleos de álgebra lineal** (multiplicación de matrices, atención) y cómo se mapean a aceleración por hardware (Núcleos Tensor, bibliotecas BLAS, etc.). * Experiencia con **frameworks de inferencia de aprendizaje automático** (por ejemplo, llama.cpp, TensorRT, ONNX Runtime, TVM, componentes internos de PyTorch) es un plus. * Comodidad trabajando en entornos **Unix/Linux**; experiencia con sistemas de compilación (CMake, Bazel) y pipelines de CI. * Habilidades sólidas para resolver problemas y depuración; capacidad para analizar profundamente tanto el código como los rastros de rendimiento. * Autonomía y capacidad para prosperar en un entorno de **startup dinámico**. ### **Deseable** * Experiencia implementando **LoRA o ajuste fino basado en adaptadores** en entornos de inferencia. * Conocimiento de **métodos de cuantización** y despliegue eficiente de modelos cuantizados. * Antecedentes en sistemas distribuidos o orquestación multi-GPU. * Contribuciones a **sistemas de IA/ML de código abierto**. ### **Por qué unirse** * Desarrollar propiedad intelectual clave en la intersección entre **IA e ingeniería de sistemas**. * Trabajar con un equipo fundador altamente técnico en problemas que son a la vez desafiantes intelectualmente y con impacto comercial. * Oportunidad de influir en la dirección de una nueva plataforma de IA desde cero. * Compensación competitiva (contrato o tiempo completo), posibilidad de participación accionaria y trabajo remoto flexible. Por favor, utiliza este enlace para postularte a este empleo: https://www.baasi.com/career/apply/3164121


