AI Infrastructure & GPU Specialist (all genders)
Job Description
Rolle & Unternehmen
Für unsere Mandantin besetzen wir im Exklusivmandat zum nächstmöglichen Zeitpunkt die Position „AI Infrastructure & GPU Specialist (all genders)". Unsere Mandantin ist ein dynamisches und hochambitioniertes Unternehmen im Bereich KI-Infrastruktur und Rechenzentren. Mit einem modernen technologischen Ansatz und eigenen Rechenzentrumsstandorten in der DACH-Region entwickelt das Unternehmen KI- und Cloud-Infrastrukturleistungen für anspruchsvolle Kunden weiter.
Branche: KI-Infrastruktur, Datacenter, Cloud-Computing
Organisatorische Verortung: AI Strategy & Ecosystem
Arbeitsort: Berlin / Wien, oder Home Office möglich
Ihre Aufgaben
- In dieser Expertenrolle stellen Sie tiefes und breites Fachwissen im Bereich GPU Computing und Inference Optimization bereit. Sie liefern spezialisierte Lösungen für die GPU-Infrastruktur und für Multi-GPU-Umgebungen und agieren als maßgebliche Instanz für die Optimierung von Agentic Workloads auf GPUs. Sie treiben Quantization und FinOps für GPU-Kosten eigenverantwortlich voran, treffen strategische Entscheidungen zu Inference Optimization und wirken als Experte für Hardware-Level-Performance in einem kritischen Zuständigkeits- und Verantwortungsbereich.
- Im Bereich Crossfunktionale Zusammenarbeit arbeiten Sie eng mit den Backend- und MLOps-Teams an der Integration von GPU-optimierten Inference-Lösungen und koordinieren bereichsübergreifende Performance-Optimierungsteams.
- Im Bereich GPU Infrastructure Design übernehmen Sie Design und Implementierung der GPU-Infrastruktur unter Berücksichtigung von Best Practices führender AI-Infrastruktur-Unternehmen (NVIDIA, Lambda Labs) und mit klarer FinOps-Struktur.
- Im Bereich Quantization und Inference Optimization führen Sie eigenverantwortlich Quantization (GPTQ, AWQ, GGUF) sowie Inference Optimization durch und implementieren die Ergebnisse in Produktionsumgebungen. Sie berücksichtigen dabei aktuelle Entwicklungen im Bereich neuer Inference Engines und verantworten wöchentliches Testing.
- Im Bereich GPU-Strategie und Hardware-Ziele unterstützen Sie die Plattform-Teams bei der Weiterentwicklung der GPU-Strategie und wirken an der Definition kurz- und langfristiger Hardware-Ziele unter Berücksichtigung von Gesamtstrategie und Kosteneffizienz mit.
- Im Bereich Kubernetes GPU Scheduling verantworten Sie Aufbau, Pflege und kontinuierliche Verbesserung des K8s-GPU-Schedulings, einschließlich strukturiertem Reporting über Performance-Kennzahlen, regelmäßiger Effizienzüberprüfungen und Implementierung von Kostenoptimierungen.
- Im Bereich Dokumentation und Benchmarking erstellen, pflegen und aktualisieren Sie GPU-Dokumentation und Benchmark-Reports regelmäßig, führen notwendige Anpassungen durch und stellen konsistente Arbeitsabläufe sowie die Erfüllung der Performance-Anforderungen sicher.
- Im Bereich Wissenstransfer dokumentieren Sie Lessons Learned aus der GPU-Optimierung und stellen tiefes Fachwissen in verständlicher Form zur Verfügung, um internes Lernen zu fördern und einen kontinuierlichen Wissenstransfer sicherzustellen.
- Als Peer im Fachteam arbeiten Sie kollegial mit anderen Rollen auf Augenhöhe zusammen und beraten insbesondere zur Frage, welche Inference Engine für welchen Use Case geeignet ist.
Ihr Profil
- Sie verfügen über ein abgeschlossenes Hochschulstudium in einem relevanten Fachbereich (Informatik, Technische Informatik, Computational Engineering oder vergleichbar) sowie über mindestens drei bis fünf Jahre Berufserfahrung im Bereich GPU/HPC. Zertifizierungen in relevanten Methoden sind von Vorteil, etwa EU AI Act, NVIDIA DLI (Deep Learning Institute), Kubernetes GPU Operator oder AI Manager (TÜV). Erfahrung in der Zusammenarbeit mit crossfunktionalen Teams in Tech-Unternehmen setzen wir voraus.
- Ihre fachlichen Kernkompetenzen umfassen fundierte Kenntnisse in GPU Clusters und CUDA Programming sowie nachweisliche Erfahrung in der Code-Modifikation von vLLM, TGI oder SGLang. Sie bringen tiefgreifendes und breites Fachwissen in GPU Computing, Quantization (GPTQ, AWQ, GGUF) und Inference Optimization mit und verfügen über ein fundiertes Verständnis von K8s GPU Scheduling und relevanten Infrastruktur-Prozessen. Sie verfolgen aktuelle Markt- und Technologietrends im Bereich Inference Engines und haben ein strategisches Verständnis von Sovereign Models und deren Bedeutung für die GPU-Infrastruktur.
- Im technologischen Stack werden CUDA und C++ vorausgesetzt, ergänzt um Python und Rust (wünschenswert).
- Im Bereich Sovereign Models erwarten wir Expertise in vLLM, TGI, llama.cpp und SGLang.
- Im Bereich DevOps und Open Stack sind Docker, Kubernetes, Terraform und Ansible eine wichtige Voraussetzung. Sie sind in der Lage, System-Level-Code zu lesen und zu modifizieren, und verfügen über ein fundiertes FinOps- und Hardware-Verständnis.
- Persönlich zeichnen Sie sich durch Performance-Obsession, analytisches, strukturiertes und systematisches Denkvermögen sowie durch die Fähigkeit aus, komplexe Sachverhalte verständlich zu vermitteln. Ein interkulturelles Mindset und Offenheit für neue Inference Engines und Methoden runden Ihr Profil ab.
- Verhandlungssichere Deutschkenntnisse (mindestens Niveau C1) sowie verhandlungssichere Englischkenntnisse in Wort und Schrift werden vorausgesetzt.
Das Angebot
- Eine Expertenrolle mit hoher fachlicher Sichtbarkeit im Aufbau eines neuen Fachbereichs AI Strategy & Ecosystem
- Direkte Berichtslinie an den Head of AI Strategy & Ecosystem
- Arbeit mit moderner GPU-Hardware in dedizierten Test- und Produktionsumgebungen
- Hoher Gestaltungsspielraum bei der technischen und strategischen Ausrichtung der GPU-Infrastruktur
- Ein agiles, technologiegetriebenes Arbeitsumfeld innerhalb eines solide aufgestellten Unternehmens
- Ein attraktives Gehaltspaket
- Flexible Arbeitsortgestaltung mit Home-Office-Möglichkeit und Nähe zu den Rechenzentrumsstandorten
Kontakt
Wir freuen uns auf Ihre Online-Bewerbung unter Angabe Ihrer Gehaltsvorstellung bzw. Ihres derzeitigen Gehalts und der Nennung Ihres frühestmöglichen Eintrittstermins. Unsere Berater, Klaas Koolman wird sich mit Ihnen in Verbindung setzen.
Gender-Hinweis
Aus Gründen der besseren Lesbarkeit wird auf die gleichzeitige Verwendung der Sprachformen männlich, weiblich und divers (m/w/d) verzichtet. Sämtliche Personenbezeichnungen gelten gleichermaßen für alle Geschlechter.
SHARE
Dies ist eine auf dritten Jobbörsen gefundene Stellenanzeige. Wir bieten hierfür keinen Support, können diese aber jederzeit offline stellen. Für weitere Informationen: Datenschutzhinweise | Anzeige melden.