Categorías
···
Entrar / Registro
Ingeniero C++ Runtime de IA (Ciudad de México, México)
Salario negociable
Indeed
Tiempo completo
Presencial
Sin requisito de experiencia
Sin requisito de título
Isabel La Católica 5, Centro Histórico de la Cdad. de México, Centro, Cuauhtémoc, 06000 Ciudad de México, CDMX, Mexico
Favoritos
Compartir
Parte del contenido se ha traducido automáticamenteVer original
Descripción

### **Sobre Nosotros** Somos una **startup en modo sigilo** construyendo infraestructura de próxima generación para la industria de la IA. Nuestro equipo tiene décadas de experiencia en software, sistemas y tecnologías profundas. Estamos trabajando en un nuevo tipo de entorno de ejecución de IA que amplía los límites del rendimiento y la flexibilidad, haciendo que los modelos avanzados sean portátiles, eficientes y personalizables para su implementación en el mundo real. Si deseas formar parte de un equipo pequeño y ágil que esté moldeando el **futuro de los sistemas de IA aplicada**, esta es tu oportunidad. ### **Rol** Buscamos un **ingeniero C\+\+** con sólida experiencia en programación de sistemas y GPU para ayudarnos a extender y optimizar un entorno de ejecución de inferencia de IA de código abierto. Trabajarás en componentes internos de bajo nivel para la ejecución de modelos de lenguaje grande, centrándote en: * Integración dinámica de adaptadores (por ejemplo, LoRA/QLoRA) * Mecanismos de actualización incremental de modelos * Almacenamiento en caché y planificación de inferencia multi-sesión * Mejoras de rendimiento en GPU (Núcleos Tensoriales, CUDA/ROCm) Este es un puesto **práctico**: diseñarás, codificarás, realizarás perfiles y iterarás sobre código de inferencia de alto rendimiento que se ejecuta directamente en CPUs y GPUs. ### **Responsabilidades** * Implementar soporte para **carga dinámica de adaptadores en tiempo de ejecución (LoRA)**, permitiendo personalizar modelos sobre la marcha sin necesidad de reentrenamiento o fusión de modelos. * Diseñar e implementar mecanismos para **deltas incrementales de modelos**, permitiendo extender y actualizar modelos de forma eficiente. * Extender el entorno de ejecución para manejar **ejecución multi-sesión**, con estrategias de aislamiento y caché para usuarios concurrentes. * Optimizar núcleos matemáticos básicos y estructuras de memoria para mejorar el rendimiento de inferencia en **backends de CPU y GPU**. * Colaborar con ingenieros de backend e infraestructura para integrar tu trabajo en APIs y capas de orquestación. * Escribir pruebas de referencia, pruebas unitarias y herramientas de perfilado para garantizar la corrección y medir mejoras de rendimiento. * Participar en discusiones sobre arquitectura del sistema y ayudar a definir la hoja de ruta para futuras funciones del entorno de ejecución. ### **Requisitos** * Alta competencia en **C\+\+ moderno (C\+\+14/17/20\)** y programación de sistemas. * Comprensión sólida de **optimización de bajo nivel**: gestión de memoria, multithreading, SIMD, eficiencia de caché. * Experiencia con programación de GPU **CUDA** y/o **ROCm/HIP**. * Conocimiento de **núcleos de álgebra lineal** (multiplicación de matrices, atención) y cómo se mapean a aceleración por hardware (Núcleos Tensoriales, bibliotecas BLAS, etc.). * Experiencia con **frameworks de inferencia de aprendizaje automático** (por ejemplo, llama.cpp, TensorRT, ONNX Runtime, TVM, componentes internos de PyTorch) es un plus. * Comodidad trabajando en entornos **Unix/Linux**; experiencia con sistemas de compilación (CMake, Bazel) y pipelines CI. * Habilidades sólidas para resolución de problemas y depuración; capacidad para profundizar tanto en código como en trazas de rendimiento. * Autonomía y capacidad para prosperar en un entorno de **startup ágil**. ### **Deseable** * Experiencia implementando **LoRA o ajuste fino basado en adaptadores** en entornos de inferencia. * Conocimiento de **métodos de cuantización** y despliegue eficiente de modelos cuantizados. * Antecedentes en sistemas distribuidos o orquestación multi-GPU. * Contribuciones a **sistemas de IA/ML de código abierto**. ### **Por qué unirse** * Crear propiedad intelectual clave en la intersección entre **IA e ingeniería de sistemas**. * Trabajar con un equipo fundador altamente técnico en problemas que son a la vez desafiantes intelectualmente y con impacto comercial. * Oportunidad de dar forma desde cero a la dirección de una nueva plataforma de IA. * Compensación competitiva (contrato o tiempo completo), posibilidad de acciones y trabajo remoto flexible. Por favor usa este enlace para postularte a este empleo: https://www.baasi.com/career/apply/3163987

Fuentea:  indeed Ver publicación original
Juan García
Indeed · HR

Compañía

Indeed
Juan García
Indeed · HR
Empleos similares

Cookie
Configuración de cookies
Nuestras aplicaciones
Download
Descargar en
APP Store
Download
Consíguelo en
Google Play
© 2025 Servanan International Pte. Ltd.