Logo

AI Architect (Runtime & Inference) - LLM Platforms | Specialist (Remote)

R$0.00

Descrição

Habilidades necessárias:


  • Expertise em operação de modelos de linguagem em produção com foco em performance e disponibilidade;
  • Domínio de frameworks de LLM serving em escala: vLLM, TGI (Text Generation Inference), Triton Inference Server ou equivalentes;
  • Experiência avançada com Kubernetes e gerenciamento de workloads de inferência com aceleradores;
  • Expertise em observabilidade em ambientes complexos: Prometheus, Grafana, OpenTelemetry e correlação de sinais;
  • Profundo conhecimento de AWS e seus serviços de ML (SageMaker Endpoints, Bedrock, EKS);

 

Habilidades desejáveis:


  • Experiência com otimização avançada de modelos: quantização (GPTQ, AWQ), distilação e compilação para inferência;
  • Conhecimento prático de GPUs e aceleradores (NVIDIA A100/H100) em contextos de produção;
  • Experiência com caching semântico e estratégias avançadas de gestão de contexto para LLMs;
  • Histórico de atuação em SRE ou engenharia de plataforma em ambientes de missão crítica;
  • Experiência com arquiteturas multi-região e estratégias de disaster recovery para workloads de IA;

 


Localização

Endereço:

Código Postal:

Interessado em saber mais?

Entre em contato com Gupy (TrappyWeb) através dos seguintes canais de comunicação

Anúncios que podem te interessar

Explore outras opções parecidas que também podem ser o que você procura.